Toutes les news taguées avec ce sujet.
Un framework de test-time compute qui sélectionne le meilleur raisonnement parmi plusieurs candidats en parallèle via des comparaisons par paires et un score Bradley-Terry.