RECHERCHE
Semantic Triplet Restoration : un nouveau protocole pour la compréhension hiérarchique des tableaux dans les LLM
Une approche qui reformule chaque cellule en fait atomique structuré pour améliorer le question-answering sur tableaux complexes.
arXiv cs.AI · cs.LG · cs.CL·Yibin Zhao, Fangxin Shang, Dingrui Yang, Yuqi Wang·29 mai 2026

Image · Source originale
STR (Semantic Triplet Restoration) propose de représenter chaque cellule d'un tableau sous la forme d'un triplet <chemin entité, chemin attribut, valeur>, en lieu et place des représentations HTML ou Markdown habituelles. Cette sérialisation explicite réduit la charge de balisage et facilite l'inférence des alignements entre en-têtes et cellules. Sur quatre benchmarks table-QA en chinois et en anglais, STR égale ou surpasse les baselines HTML tout en diminuant le nombre de tokens en entrée, avec un gain relatif plus marqué pour les petits modèles.