Toutes les news taguées avec ce sujet.
Des chercheurs montrent qu'une pénalité de norme simple peut accélérer le grokking jusqu'à 6x en contraignant les représentations cachées sur une hypersphère.