Toutes les news taguées avec ce sujet.
Un contrôleur unifié pour robots humanoïdes combine locomotion, manipulation et récupération de chutes via distillation KL et architecture MoE.
Face à la saturation du pré-entraînement classique, q0 propose d'explorer une population de modèles en parallèle plutôt qu'un seul modèle raffiné.
Une nouvelle méthode d'alignement cible uniquement les tokens liés à la sécurité, réduisant drastiquement le coût d'alignement sans sacrifier les capacités générales.
Un framework de distillation réduit de 44× la taille d'un modèle VLA de 7 milliards de paramètres tout en conservant des performances quasi équivalentes.
Une nouvelle méthode combine RL et distillation dense pour améliorer les agents LLM multi-tours, surpassant GRPO sur trois benchmarks.
TextSeal surpasse SynthID-Text en robustesse de détection et résiste à la dilution, tout en étant « radioactif » contre la distillation non autorisée.
Une étude empirique propose d'allouer les données labellisées vérifiables selon un principe de densité de récompense, combinant RL sparse et supervision dense.
Une équipe a compressé les capacités d'appel d'outils de Gemini dans un modèle ultra-léger de 26M paramètres via distillation.
Un framework diagnostique sans entraînement révèle, token par token, quand la distillation on-policy améliore ou dégrade l'apprentissage des modèles de raisonnement.
CMR-EXTR convertit des comptes rendus d'IRM cardiaque en données structurées avec un score de confiance par champ, atteignant 99,65 % de précision.
Un framework post-entraînement unifié combine distillation on-policy et Flow Matching pour aligner les modèles texte-image sans effet seesaw.
Une nouvelle architecture combine normalizing flows et diffusion pour générer des images en seulement 4 étapes tout en conservant une vraisemblance exacte.