vendredi 24 avril 2026Connexion →
21 SOURCES ACTIVES+253 / 7J
Fellow
La veille de l'intelligence artificielle

OUTILS

Mr. Chatterbox : un LLM entraîné exclusivement sur des textes victoriens libres de droits

Un modèle de 340 millions de paramètres entraîné sur 28 000 ouvrages britanniques du XIXe siècle, sans aucune donnée postérieure à 1899.

Simon Willison·30 mars 2026
Trip Venturella a publié Mr. Chatterbox, un LLM entraîné de zéro sur un corpus de 28 035 livres victoriens (1837-1899) fournis par la British Library, représentant environ 2,93 milliards de tokens. Le modèle, d'environ 340 millions de paramètres (comparable à GPT-2-Medium), pèse 2,05 Go et ne contient aucune donnée postérieure à 1899. Si l'expérience répond à une question théorique sur les modèles 100 % libres de droits, Simon Willison juge les résultats décevants, proches d'une chaîne de Markov plutôt que d'un vrai LLM.
Chaleur 0
Pertinence 62
Nouveauté 68
OUVRIR LA SOURCE ↗
#LLM#open-weights#corpus historique#copyright#fine-tuning