RECHERCHE

Évaluation à grande échelle des LLMs sur des textes juridiques vietnamiens

Un cadre d'évaluation dual confronte GPT-4o, Claude 3 Opus, Gemini 1.5 Pro et Grok-1 sur la simplification du droit vietnamien.

arXiv cs.AI · cs.LG · cs.CL·Van-Truong Le·17 avril 2026

Des chercheurs proposent un cadre d'évaluation en deux volets pour mesurer les capacités des LLMs sur des textes juridiques vietnamiens complexes : un benchmark de performance (précision, lisibilité, cohérence) et une analyse d'erreurs à grande échelle sur 60 articles. Les résultats révèlent un arbitrage critique : Grok-1 excelle en lisibilité mais pèche sur la précision juridique fine, tandis que Claude 3 Opus affiche de bons scores de précision masquant des erreurs de raisonnement subtiles. Les défaillances dominantes sont les exemples incorrects et les erreurs d'interprétation.

Chaleur 0

Pertinence 62

Nouveauté 58

OUVRIR LA SOURCE ↗

#LLM #legal-ai #benchmark #raisonnement #NLP