Toutes les news taguées avec ce sujet.
Un nouveau benchmark de 60 tâches bilingues et multimodales teste les agents IA sur des workflows longs dans des environnements natifs — les meilleurs modèles peinent à dépasser 62 %.
Un nouveau paradigme Context-ReAct propose cinq opérations atomiques pour gérer dynamiquement le contexte des agents de recherche multi-étapes.