dimanche 26 juillet 2026Connexion →

36 SOURCES ACTIVES+366 / 7J

La veille de l'intelligence artificielle

Rechercher · papers, agents, LeCun…⌘K ALERTES43

À la une Rechercher Topics Entités Modèles Live Alertes Réglages

Sauvegardés · 0

La newsletter Fellow

Le briefing IA, chaque matin à 8h Paris.

Adresse email

FELLOW1749 items ingérés36 sources · 17 acteurs →Newsletter →Méthodologie →

30 items

#reinforcement-learning

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 55
OpenForgeRL : entraînement d'agents harness-native
Un framework open-source pour entraîner des agents de bout en bout via des infrastructures d'inférence complexes.
RECHERCHE
heat 45
MIRROR : optimiser le raisonnement multi-modal par vues croisées
Une méthode RL exploitant les vues texte et image pour améliorer la cohérence des modèles de vision-language.
RECHERCHE
heat 25
Vers la télé-manipulation locomotrice de robots humanoïdes miniatures via VR et apprentissage par renforcement
Un système de téléprésence combinant réalité virtuelle et RL adapté aux robots humanoïdes miniatures, testé sur la plateforme ROBOTIS OP3.
RECHERCHE
heat 35
Notes personnelles : les LLM peuvent-ils tirer parti d'abstractions expérientielles ?
Une étude explore si les LLM peuvent extraire des stratégies réutilisables de leurs propres traces de résolution, comme le font les humains avec l'expérience.
RECHERCHE
heat 45

Off-Context GRPO : apprendre à raisonner sur des problèmes difficiles

Une variante du GRPO utilisant des informations privilégiées guide le modèle vers des solutions correctes sans déstabiliser l'apprentissage.

RECHERCHE

heat 35

Copier moins, ancrer plus : corriger la copie répétitive dans le raisonnement long-contexte via un RL sensible aux preuves

Une étude identifie un défaut fréquent des LLM en contexte long : recopier le texte source au lieu de raisonner, et propose une méthode de RL pour y remédier.

RECHERCHE

heat 45

ToolSciVer : vérification scientifique multimodale par RL et outils visuels

Un cadre utilisant des outils spécialisés et le reinforcement learning pour améliorer la vérification de réclamations scientifiques.

RECHERCHE

heat 35

Comprendre le raisonnement des LLM, du pretraining au post-training via le RL

Une étude sur les échecs comme banc d'essai contrôlé révèle comment les choix de pretraining déterminent les gains obtenus par le RL post-training.

RECHERCHE

heat 30

DADiff : adaptation de politique par diffusion pour l'apprentissage par renforcement inter-domaines

Un nouveau cadre basé sur la diffusion estime l'écart de dynamique entre domaines pour adapter des politiques de RL avec peu d'interactions cible.

RECHERCHE

heat 35

Quand l'optimiseur Muon améliore-t-il l'apprentissage par renforcement agentique ?

Une étude exploratoire compare Muon à AdamW en post-training RL sur des tâches agentiques à récompense éparse, avec des gains significatifs sous certaines conditions.

RECHERCHE

heat 25

Un apprentissage par renforcement enrichi par la physique pour le contrôle optimal en temps réel de systèmes dynamiques

Une nouvelle méthode combine RL et différentiabilité des dynamiques physiques pour réduire drastiquement le nombre d'interactions nécessaires.

RECHERCHE

heat 40

MeanFlowNFT : le RL forward-process pour les générateurs MeanFlow

Une méthode RL adaptée aux générateurs de vélocité moyenne qui optimise le récompense sans altérer la vitesse d'échantillonnage.

RECHERCHE

heat 10

Algorithmes pour l'ordonnancement de remplacement par bloc

Optimisation du remplacement préventif de machines via des approches bandit et estimation non paramétrique.

RECHERCHE

heat 55

Ring-Zero : le RL sans supervision porté à mille milliards de paramètres pour un raisonnement émergent

Une équipe de recherche fait passer l'apprentissage par renforcement pur (« zero RL ») à l'échelle du trillion de paramètres, avec des capacités de raisonnement qui émergent sans supervision.

RECHERCHE

heat 45

TRACE : attribution de récompense au niveau des tours pour agents à long horizon

Une méthode d'apprentissage par renforcement affine le crédit accordé à chaque action d'un agent, sans critique additionnelle ni supervision coûteuse.

RECHERCHE

heat 25

Lighthouse RL : optimiser le dimensionnement de circuits analogiques avec moins d'essais

Une nouvelle stratégie de reset guidé par des configurations performantes améliore l'efficacité et la généralisation du RL pour la conception de circuits.

RECHERCHE

heat 25

L'exposant de Lyapunov comme récompense dense pour stabiliser un pendule inversé par RL

Une méthode de reinforcement learning utilise l'exposant de Lyapunov pour aller au-delà du pendule de Kapitza et stabiliser un pendule inversé.

RECHERCHE

heat 25

Apprentissage par renforcement guidé par la connaissance et le gradient pour les MDP à actions paramétrées

Une méthode neuro-symbolique combine base de connaissances Datalog et raffinement par gradient pour améliorer l'efficacité d'échantillonnage en RL.

RECHERCHE

heat 45

TerraZero : simulation procédurale pour l'autopilotage sans démonstration

Un simulateur de conduite rapide et réaliste capable d'entraîner des agents par reinforcement learning à grande échelle.

OUTILS

nvidiaheat 50

Workflow de recherche autonome avec agents RL et NVIDIA NeMo

NVIDIA présente comment des agents IA dotés de compétences RL peuvent automatiser l'exécution de workflows ML complexes.

RECHERCHE

heat 30

Recherche d'architectures neuronales frugale : essaims et Transformer pour du NAS accessible

Un cadre hybride combinant Transformer et Artificial Bee Colony permet de faire du NAS sur GPU grand public, en quelques heures seulement.

OUTILS

heat 55

Show HN : un agent entraîné par RL pour entraîner d'autres modèles via RL (pour environ 1 300 $)

Un développeur détaille un projet où un agent, lui-même entraîné par renforcement, orchestre l'entraînement RL d'autres modèles à faible coût.

RECHERCHE

heat 35

La « leçon des 4 bits » : stabilité et performance dans l'apprentissage par renforcement en NVFP4

Un article technique explore comment entraîner des modèles en RL avec le format de quantification NVFP4 sans sacrifier la stabilité de l'entraînement.

RECHERCHE

heat 45

Une méthode minimaliste de RL guidé par retargeting pour la manipulation dextre

REGRIND apprend des politiques de manipulation dextre à partir d'une seule démonstration humaine, avec transfert direct vers le matériel réel.

RECHERCHE

heat 25

PAC-ACT : post-entraînement acteur-critique pour les transformers à découpage d'actions

Un framework de reinforcement learning affine les politiques robotiques pré-entraînées pour les tâches de manipulation industrielle à contact précis.

RECHERCHE

heat 25

Semantic Pareto-DQN : un cadre de reinforcement learning multi-objectif pour la détection d'anomalies financières

Un modèle combine LLM et RL multi-objectif pour éviter l'effondrement vers la classe majoritaire dans la détection de fraude, sans rééchantillonnage des données.

RECHERCHE

heat 62

AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles

Une méthode de feedback adaptatif ajuste dynamiquement la longueur du préfixe de solution fourni au modèle, doublant la précision de GRPO sur les problèmes mathématiques difficiles.

RECHERCHE

heat 62

Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement

Deux modèles s'affrontent et se notent mutuellement pour améliorer leur raisonnement, sans étiquettes de processus ni reward model externe.

OUTILS

heat 38

FootsiesGym : un benchmark de jeu de combat pour l'apprentissage par renforcement en deux joueurs

Un environnement open-source basé sur le jeu de combat minimaliste Footsies pour étudier les interactions stratégiques cycliques et non transitives.

RECHERCHE

heat 62

L'apprentissage par renforcement avec feedback métacognitif fait émerger l'incertitude dans les LLM

Une nouvelle approche combine RL et feedback métacognitif pour que les LLM expriment leur incertitude de façon calibrée.