RECHERCHE

RA-RFT : apprendre à raisonner par analogie via RAG et reinforcement fine-tuning

Un framework post-training combine retrieval raisonné et reinforcement fine-tuning pour enseigner aux LLM à exploiter des analogies structurelles plutôt que sémantiques.

arXiv cs.AI · cs.LG · cs.CL·Zilin Xiao, Qi Ma, Chun-cheng Jason Chen, Xintao Chen·11 juin 2026

Image · Source originale

RA-RFT propose un cadre d'entraînement post-training qui remplace la recherche par similarité sémantique par un retriever guidé par le bénéfice de raisonnement attendu. Le modèle est ensuite fine-tuné par reinforcement fine-tuning avec des démonstrations analogues, apprenant à transférer des schémas de raisonnement. Sur des benchmarks mathématiques exigeants comme AIME 2025, RA-RFT améliore l'accuracy average@32 de 7,1 points sur Qwen3-1.7B par rapport à GRPO.

Chaleur 18

Pertinence 78

Nouveauté 74

OUVRIR LA SOURCE ↗

#RAG #reinforcement fine-tuning #raisonnement mathématique #retrieval #LLM