6 items

#efficacité

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 35
PyroDash : inférence collaborative token par token entre petits et grands modèles de langage
Un framework où un petit modèle décide lui-même quand solliciter un LLM, réduisant fortement les coûts d'inférence sans sacrifier la précision.
RECHERCHE
heat 30
Extension in-place du tokenizer pour les LLM pré-entraînés
Une méthode pour agrandir le vocabulaire d'un modèle déjà entraîné sans repartir de zéro, appliquée à LFM2.5-8B-A1B.
RECHERCHE
heat 52
Abandon précoce des épisodes d'agents LLM par cascade de sondes à rappel contrôlé
Des chercheurs montrent que l'échec d'un agent LLM est prévisible dès le premier tour via ses représentations internes, permettant d'économiser jusqu'à 47 % du calcul d'inférence.
RECHERCHE
heat 42
EADP : élagage de tokens visuels guidé par l'entropie pour les VLMs
Une nouvelle méthode structure la compression de tokens visuels comme un problème de maximisation submodulaire, filtrant le bruit textuel par entropie statistique.
RECHERCHE
heat 72
Une seule couche suffit-elle ? Un unique layer Transformer égale l'entraînement RL complet
Une étude montre qu'affiner un seul layer d'un Transformer via RL atteint des performances comparables à l'entraînement complet de tous les paramètres.
RECHERCHE
heat 52
L'hypothèse de séparation état-prédiction dans les Transformers
Des chercheurs proposent de découpler le flux de calcul des Transformers en deux flux distincts, améliorant l'efficacité et les performances sur les tâches en aval.

6 items

#efficacité

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 35
PyroDash : inférence collaborative token par token entre petits et grands modèles de langage
Un framework où un petit modèle décide lui-même quand solliciter un LLM, réduisant fortement les coûts d'inférence sans sacrifier la précision.
RECHERCHE
heat 30
Extension in-place du tokenizer pour les LLM pré-entraînés
Une méthode pour agrandir le vocabulaire d'un modèle déjà entraîné sans repartir de zéro, appliquée à LFM2.5-8B-A1B.
RECHERCHE
heat 52
Abandon précoce des épisodes d'agents LLM par cascade de sondes à rappel contrôlé
Des chercheurs montrent que l'échec d'un agent LLM est prévisible dès le premier tour via ses représentations internes, permettant d'économiser jusqu'à 47 % du calcul d'inférence.
RECHERCHE
heat 42
EADP : élagage de tokens visuels guidé par l'entropie pour les VLMs
Une nouvelle méthode structure la compression de tokens visuels comme un problème de maximisation submodulaire, filtrant le bruit textuel par entropie statistique.
RECHERCHE
heat 72
Une seule couche suffit-elle ? Un unique layer Transformer égale l'entraînement RL complet
Une étude montre qu'affiner un seul layer d'un Transformer via RL atteint des performances comparables à l'entraînement complet de tous les paramètres.
RECHERCHE
heat 52
L'hypothèse de séparation état-prédiction dans les Transformers
Des chercheurs proposent de découpler le flux de calcul des Transformers en deux flux distincts, améliorant l'efficacité et les performances sur les tâches en aval.

PyroDash : inférence collaborative token par token entre petits et grands modèles de langage

Extension in-place du tokenizer pour les LLM pré-entraînés

Abandon précoce des épisodes d'agents LLM par cascade de sondes à rappel contrôlé

EADP : élagage de tokens visuels guidé par l'entropie pour les VLMs

Une seule couche suffit-elle ? Un unique layer Transformer égale l'entraînement RL complet

L'hypothèse de séparation état-prédiction dans les Transformers

PyroDash : inférence collaborative token par token entre petits et grands modèles de langage

Extension in-place du tokenizer pour les LLM pré-entraînés

Abandon précoce des épisodes d'agents LLM par cascade de sondes à rappel contrôlé

EADP : élagage de tokens visuels guidé par l'entropie pour les VLMs

Une seule couche suffit-elle ? Un unique layer Transformer égale l'entraînement RL complet

L'hypothèse de séparation état-prédiction dans les Transformers