4 items

#scaling-laws

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 55
Xaira Therapeutics : la causalité comme clé de la découverte de médicaments
Xaira présente son modèle X-Cell : une approche des données causales pour surpasser les limites de scaling en biologie.
RECHERCHE
heat 35
Comprendre le raisonnement des LLM, du pretraining au post-training via le RL
Une étude sur les échecs comme banc d'essai contrôlé révèle comment les choix de pretraining déterminent les gains obtenus par le RL post-training.
OPINION
heat 55
Le sur-apprentissage comme voie vers l'IA humanoïde
Une analyse théorique suggère que le sur-apprentissage excessif pourrait être clé pour atteindre des capacités humaines.
RECHERCHE
heat 42
Comment la largeur et les données façonnent les lois d'échelle de généralisation dans les réseaux de neurones quadratiques
Une étude théorique révèle un diagramme de phases pour la généralisation selon la taille du modèle et le volume de données, via des réseaux à deux couches quadratiques.

4 items

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 55
Xaira Therapeutics : la causalité comme clé de la découverte de médicaments
Xaira présente son modèle X-Cell : une approche des données causales pour surpasser les limites de scaling en biologie.
RECHERCHE
heat 35
Comprendre le raisonnement des LLM, du pretraining au post-training via le RL
Une étude sur les échecs comme banc d'essai contrôlé révèle comment les choix de pretraining déterminent les gains obtenus par le RL post-training.
OPINION
heat 55
Le sur-apprentissage comme voie vers l'IA humanoïde
Une analyse théorique suggère que le sur-apprentissage excessif pourrait être clé pour atteindre des capacités humaines.
RECHERCHE
heat 42
Comment la largeur et les données façonnent les lois d'échelle de généralisation dans les réseaux de neurones quadratiques
Une étude théorique révèle un diagramme de phases pour la généralisation selon la taille du modèle et le volume de données, via des réseaux à deux couches quadratiques.