Toutes les news taguées avec ce sujet.
Une approche semi-paramétrique qui réutilise les données d'entraînement à l'inférence pour corriger les erreurs de généralisation du behavior cloning.
DistIL propose une alternative à RLVR en exploitant des feedbacks riches (traces, corrections) via une cross-entropie directe garantissant une amélioration monotone des politiques.
Une méthode de supervision humaine en boucle élimine les « sauts de geste » lors des prises en main correctrices sur bras robotiques à haute dextérité.