Toutes les news taguées avec ce sujet.
Un nouveau benchmark révèle que les meilleurs modèles multimodaux peinent à comprendre les événements visuels fugaces dans les vidéos, avec seulement 39,6 % de précision au mieux.