Toutes les news taguées avec ce sujet.
Une étude remet en cause l'idée que les LLM atteignent le niveau des experts humains, en pointant les limites des benchmarks standards.
Microsoft Research clarifie les conclusions de son étude sur la dégradation de fidélité des LLM dans les workflows délégués multi-étapes.
Des auditeurs de l'Ontario révèlent que les outils IA de transcription utilisés par les médecins produisent régulièrement des erreurs sur des faits élémentaires.
Un outil open-source qui propose de modéliser le comportement des agents IA via des machines à états visuelles, pour réduire les comportements imprévisibles.