Toutes les news taguées avec ce sujet.
Une étude benchmark révèle que les LLM s'effondrent sur les problèmes probabilistes contre-intuitifs, avec des chutes de performance allant jusqu'à 34 %.
Une nouvelle méthode de credit assignment réduit la variance du fine-tuning RL pour les modèles Chain-of-Thought sans surcoût de génération.
Un agent contrôleur guide dynamiquement le raisonnement d'un LLM gelé via un processus de décision markovien, réduisant les tokens sans sacrifier la précision.
Des représentations perceptuelles intermédiaires permettent aux modèles vision-langage d'inférer ce qui serait visible depuis des angles non observés.
Un cryptographe analyse les chaînes de raisonnement chiffrées que certains LLM produisent, et tente d'en percer les limites de confidentialité.
Une équipe propose d'utiliser la génération de questions à l'inférence pour sonder l'état interne d'un LLM et prédire la correction de ses raisonnements.