SAFETY
ABC-Bench : un benchmark de capacités biologiques agentiques pour la biosécurité
Des agents LLM surpassent des experts humains sur des tâches biologiques à double usage, soulevant de nouvelles questions de biosécurité.
arXiv cs.AI · cs.LG · cs.CL·Andrew Bo Liu, Samira Nedungadi, Bryce Cai, Alex Kleinman·9 juin 2026

Image · Source originale
ABC-Bench évalue les agents LLM sur des tâches biologiques à risque dual : programmation de robots de manipulation de liquides, conception de fragments d'ADN et contournement de systèmes de screening de synthèse ADN. Tous les agents testés surpassent la médiane des experts humains sur les trois tâches. En validation expérimentale, le modèle o4-mini-high d'OpenAI a généré des scripts ayant permis d'assembler avec succès des séquences ADN attendues sur un robot réel.