Toutes les news taguées avec ce sujet.
Une analyse empirique de la calibration des modèles IA : leurs scores de confiance reflètent-ils vraiment la probabilité d'avoir raison ?
Des chercheurs montrent qu'un LLM de base peut prédire les scores d'un juge externe avec très peu d'exemples, sans entraînement ciblé.
Une étude révèle que les LRMs peinent à aligner leur confiance interne et leur expression linguistique, malgré des chaînes de raisonnement étendues.
Combiner six TFMs modernes apporte à peine +0,18 % de précision pour 253× le coût de calcul — et certaines stratégies dégradent la calibration.
Un nouveau framework combine la prédiction conforme et l'exploration guidée par PUCT pour garantir statistiquement la couverture des réponses dans les systèmes KGQA.