RECHERCHE

Modèles du monde exécutables pour ARC-AGI-3 à l'ère des agents de code

Un agent de code maintient un modèle du monde Python exécutable pour résoudre les jeux ARC-AGI-3, sans logique spécifique à chaque jeu.

arXiv cs.AI · cs.LG · cs.CL·Sergey Rodionov·6 mai 2026

Image · Source originale

Un système d'agent de code est évalué sur les 25 jeux publics d'ARC-AGI-3 : l'agent maintient un modèle du monde Python exécutable, le vérifie contre les observations passées et planifie avant d'agir. Sans code spécifique aux jeux, il résout 7 jeux entièrement et atteint un RHAE moyen de 32,58 %. Le contrôleur scripté repose sur des interfaces prédéfinies et des vérificateurs, sans logique ad hoc. Ces résultats constituent un premier baseline généraliste pour ARC-AGI-3.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#ARC-AGI #agents #world-model #coding-agents #benchmark