11 items

#distillation

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 45
X³-OPD : distillation de raisonnement pour modèles audio-langage
Un nouveau cadre transfère le raisonnement logique de modèles textuels vers des modèles audio via un alignement on-policy.
SIGNAL
heat 85
Moonshot aurait distillé Fable pour développer K3
Des informations suggèrent que le modèle K3 de Moonshot a été élaboré en distillant Fable, un LLM concurrent.
OPINION
heat 65
Bilan modèles ouverts : Kimi K3, Qwen et géopolitique
Analyse de l'essor des modèles chinois, de la distillation et des enjeux géopolitiques pour l'écosystème open-source.
RECHERCHE
heat 62
TREK : distillation pour l'exploration, renforcement pour l'affinement
TREK combine distillation et GRPO pour débloquer les prompts difficiles que le modèle étudiant ne sait pas résoudre seul.
RECHERCHE
heat 62
Distillation on-policy directe pour la généralisation weak-to-strong
Une méthode transfère le signal RLVR d'un petit modèle vers un plus grand, sans relancer le RL coûteux sur la cible.
SAFETY
heat 52
Distill to Detect : révéler les biais cachés dans les LLM par distillation en cartouche
Une nouvelle méthode amplifie les biais furtifs des LLM en concentrant les divergences de distribution dans un adaptateur KV-cache, les rendant détectables.
RECHERCHE
heat 52
Auto-apprentissage reconsidéré : la fragilité cachée des QA auto-générés
Des chercheurs montrent que la génération de paires QA synthétiques pour le fine-tuning introduit des biais structurels et des vulnérabilités d'injection souvent ignorés.
RECHERCHE
heat 72
Performances de modèles à 1 000 milliards de paramètres avec un agent MoE de 35 milliards
Agents-A1 démontre qu'élargir l'horizon agentic d'un modèle MoE 35B suffit à rivaliser avec des LLM mille fois plus grands.
RECHERCHE
heat 45
DOPD : distillation duale on-policy avec pondération par avantage
Un nouveau paradigme de distillation pour LLM et VLM qui contourne l'illusion de privilège en routant dynamiquement la supervision token par token.
RECHERCHE
heat 48
DanceOPD : distillation on-policy de champs génératifs pour les modèles de flow-matching
Un framework de distillation unifie génération texte-image, édition locale et globale dans un seul modèle sans dégradation mutuelle des capacités.
MARCHE
heat 88
Anthropic accuse Alibaba d'avoir extrait illicitement les capacités du modèle Claude
Anthropic affirme qu'Alibaba aurait contourné ses conditions d'utilisation pour extraire des capacités de son modèle Claude à des fins non autorisées.

11 items

#distillation

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 45
X³-OPD : distillation de raisonnement pour modèles audio-langage
Un nouveau cadre transfère le raisonnement logique de modèles textuels vers des modèles audio via un alignement on-policy.
SIGNAL
heat 85
Moonshot aurait distillé Fable pour développer K3
Des informations suggèrent que le modèle K3 de Moonshot a été élaboré en distillant Fable, un LLM concurrent.
OPINION
heat 65
Bilan modèles ouverts : Kimi K3, Qwen et géopolitique
Analyse de l'essor des modèles chinois, de la distillation et des enjeux géopolitiques pour l'écosystème open-source.
RECHERCHE
heat 62
TREK : distillation pour l'exploration, renforcement pour l'affinement
TREK combine distillation et GRPO pour débloquer les prompts difficiles que le modèle étudiant ne sait pas résoudre seul.
RECHERCHE
heat 62
Distillation on-policy directe pour la généralisation weak-to-strong
Une méthode transfère le signal RLVR d'un petit modèle vers un plus grand, sans relancer le RL coûteux sur la cible.
SAFETY
heat 52
Distill to Detect : révéler les biais cachés dans les LLM par distillation en cartouche
Une nouvelle méthode amplifie les biais furtifs des LLM en concentrant les divergences de distribution dans un adaptateur KV-cache, les rendant détectables.
RECHERCHE
heat 52
Auto-apprentissage reconsidéré : la fragilité cachée des QA auto-générés
Des chercheurs montrent que la génération de paires QA synthétiques pour le fine-tuning introduit des biais structurels et des vulnérabilités d'injection souvent ignorés.
RECHERCHE
heat 72
Performances de modèles à 1 000 milliards de paramètres avec un agent MoE de 35 milliards
Agents-A1 démontre qu'élargir l'horizon agentic d'un modèle MoE 35B suffit à rivaliser avec des LLM mille fois plus grands.
RECHERCHE
heat 45
DOPD : distillation duale on-policy avec pondération par avantage
Un nouveau paradigme de distillation pour LLM et VLM qui contourne l'illusion de privilège en routant dynamiquement la supervision token par token.
RECHERCHE
heat 48
DanceOPD : distillation on-policy de champs génératifs pour les modèles de flow-matching
Un framework de distillation unifie génération texte-image, édition locale et globale dans un seul modèle sans dégradation mutuelle des capacités.
MARCHE
heat 88
Anthropic accuse Alibaba d'avoir extrait illicitement les capacités du modèle Claude
Anthropic affirme qu'Alibaba aurait contourné ses conditions d'utilisation pour extraire des capacités de son modèle Claude à des fins non autorisées.

X³-OPD : distillation de raisonnement pour modèles audio-langage

Moonshot aurait distillé Fable pour développer K3

Bilan modèles ouverts : Kimi K3, Qwen et géopolitique

TREK : distillation pour l'exploration, renforcement pour l'affinement

Distillation on-policy directe pour la généralisation weak-to-strong

Distill to Detect : révéler les biais cachés dans les LLM par distillation en cartouche

Auto-apprentissage reconsidéré : la fragilité cachée des QA auto-générés

Performances de modèles à 1 000 milliards de paramètres avec un agent MoE de 35 milliards

DOPD : distillation duale on-policy avec pondération par avantage

DanceOPD : distillation on-policy de champs génératifs pour les modèles de flow-matching

Anthropic accuse Alibaba d'avoir extrait illicitement les capacités du modèle Claude

X³-OPD : distillation de raisonnement pour modèles audio-langage

Moonshot aurait distillé Fable pour développer K3

Bilan modèles ouverts : Kimi K3, Qwen et géopolitique

TREK : distillation pour l'exploration, renforcement pour l'affinement

Distillation on-policy directe pour la généralisation weak-to-strong

Distill to Detect : révéler les biais cachés dans les LLM par distillation en cartouche

Auto-apprentissage reconsidéré : la fragilité cachée des QA auto-générés

Performances de modèles à 1 000 milliards de paramètres avec un agent MoE de 35 milliards

DOPD : distillation duale on-policy avec pondération par avantage

DanceOPD : distillation on-policy de champs génératifs pour les modèles de flow-matching

Anthropic accuse Alibaba d'avoir extrait illicitement les capacités du modèle Claude