8 items

#MoE

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
nvidiaheat 45
NVIDIA établit un record mondial de pré-entraînement MoE sur GB300 NVL72
Avec DeepSeek-V3 671B, NVIDIA atteint 1 648 TFLOPs par GPU sur GB300 NVL72, illustrant l'importance croissante de la communication inter-GPU.
RECHERCHE
heat 35
PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité
Une nouvelle méthode de gestion mémoire pour les modèles MoE promet jusqu'à 72% d'économies GPU sans perte de précision.
OUTILS
huggingfaceheat 82
Tencent/Hy3 : un modèle MoE 295B rivalise avec les SOTA à l'échelle du trillion
Tencent publie Hy3, un modèle MoE de 295 milliards de paramètres qui affiche des performances comparables aux modèles de taille trillion.
OPINION
heat 42
Largeur vs. profondeur : spéculations sur la marge dans les LLM
Un essai de réflexion sur le compromis fondamental entre largeur (MoE, parallélisme) et profondeur (chaînes de raisonnement) dans l'architecture des modèles de langage.
RECHERCHE
heat 72
Performances de modèles à 1 000 milliards de paramètres avec un agent MoE de 35 milliards
Agents-A1 démontre qu'élargir l'horizon agentic d'un modèle MoE 35B suffit à rivaliser avec des LLM mille fois plus grands.
RECHERCHE
heat 42
Cartographie des réseaux d'élites politiques en Europe via un pipeline multilingue d'extraction entités-relations
Un pipeline open-weight combine NER, résolution d'entités Wikidata et un modèle MoE pour construire des knowledge graphs signés à partir de corpus de presse.
OUTILS
heat 82
GLM-5.2 serait le LLM open-weights texte le plus puissant à ce jour
Z.ai publie GLM-5.2 sous licence MIT : un modèle MoE de 753 milliards de paramètres qui s'impose en tête des classements open-weights.
RECHERCHE
heat 62
Muown effectue implicitement une décroissance angulaire du pas d'apprentissage
Des chercheurs montrent que l'optimiseur Muown opère sur une géométrie riemannienne et proposent AngularMuown, une version améliorée avec un multiplicateur angulaire explicite.

8 items

#MoE

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

OUTILS
nvidiaheat 45
NVIDIA établit un record mondial de pré-entraînement MoE sur GB300 NVL72
Avec DeepSeek-V3 671B, NVIDIA atteint 1 648 TFLOPs par GPU sur GB300 NVL72, illustrant l'importance croissante de la communication inter-GPU.
RECHERCHE
heat 35
PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité
Une nouvelle méthode de gestion mémoire pour les modèles MoE promet jusqu'à 72% d'économies GPU sans perte de précision.
OUTILS
huggingfaceheat 82
Tencent/Hy3 : un modèle MoE 295B rivalise avec les SOTA à l'échelle du trillion
Tencent publie Hy3, un modèle MoE de 295 milliards de paramètres qui affiche des performances comparables aux modèles de taille trillion.
OPINION
heat 42
Largeur vs. profondeur : spéculations sur la marge dans les LLM
Un essai de réflexion sur le compromis fondamental entre largeur (MoE, parallélisme) et profondeur (chaînes de raisonnement) dans l'architecture des modèles de langage.
RECHERCHE
heat 72
Performances de modèles à 1 000 milliards de paramètres avec un agent MoE de 35 milliards
Agents-A1 démontre qu'élargir l'horizon agentic d'un modèle MoE 35B suffit à rivaliser avec des LLM mille fois plus grands.
RECHERCHE
heat 42
Cartographie des réseaux d'élites politiques en Europe via un pipeline multilingue d'extraction entités-relations
Un pipeline open-weight combine NER, résolution d'entités Wikidata et un modèle MoE pour construire des knowledge graphs signés à partir de corpus de presse.
OUTILS
heat 82
GLM-5.2 serait le LLM open-weights texte le plus puissant à ce jour
Z.ai publie GLM-5.2 sous licence MIT : un modèle MoE de 753 milliards de paramètres qui s'impose en tête des classements open-weights.
RECHERCHE
heat 62
Muown effectue implicitement une décroissance angulaire du pas d'apprentissage
Des chercheurs montrent que l'optimiseur Muown opère sur une géométrie riemannienne et proposent AngularMuown, une version améliorée avec un multiplicateur angulaire explicite.

NVIDIA établit un record mondial de pré-entraînement MoE sur GB300 NVL72

PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité

Tencent/Hy3 : un modèle MoE 295B rivalise avec les SOTA à l'échelle du trillion

Largeur vs. profondeur : spéculations sur la marge dans les LLM

Performances de modèles à 1 000 milliards de paramètres avec un agent MoE de 35 milliards

Cartographie des réseaux d'élites politiques en Europe via un pipeline multilingue d'extraction entités-relations

GLM-5.2 serait le LLM open-weights texte le plus puissant à ce jour

Muown effectue implicitement une décroissance angulaire du pas d'apprentissage

NVIDIA établit un record mondial de pré-entraînement MoE sur GB300 NVL72

PagedWeight : servir les LLM MoE efficacement grâce à une quantification dynamique adaptée à la qualité

Tencent/Hy3 : un modèle MoE 295B rivalise avec les SOTA à l'échelle du trillion

Largeur vs. profondeur : spéculations sur la marge dans les LLM

Performances de modèles à 1 000 milliards de paramètres avec un agent MoE de 35 milliards

Cartographie des réseaux d'élites politiques en Europe via un pipeline multilingue d'extraction entités-relations

GLM-5.2 serait le LLM open-weights texte le plus puissant à ce jour

Muown effectue implicitement une décroissance angulaire du pas d'apprentissage