30 items

#inférence

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

SIGNAL
heat 45
Hetzner développerait une offre d'inférence LLM
L'hébergeur allemand Hetzner, connu pour ses serveurs bon marché, préparerait un service d'inférence de modèles de langage.
RECHERCHE
heat 35
PyroDash : inférence collaborative token par token entre petits et grands modèles de langage
Un framework où un petit modèle décide lui-même quand solliciter un LLM, réduisant fortement les coûts d'inférence sans sacrifier la précision.
OUTILS
heat 55
Google mise l'avenir de son inférence sur une puce conçue pour un seul modèle
Google grave son architecture Gemini directement dans le silicium, un pari risqué mais potentiellement décisif pour l'inférence à grande échelle.
RECHERCHE
heat 35
FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel
Un nouveau framework guide des agents de codage pour transformer des implémentations de référence en déploiements multi-GPU optimisés, avec des gains massifs de latence.
OPINION
heat 42
Ce qui se passe entre la saisie du prompt et l'apparition du premier mot
Un article pédagogique détaille la mécanique interne des LLM, du tokenisation à la génération du premier token en sortie.
OUTILS
heat 52
Mesh LLM : l'inférence IA distribuée sur le réseau iroh
Iroh propose une architecture peer-to-peer pour faire tourner des LLM en distribué, sans infrastructure centralisée.
OUTILS
heat 52
Reame – un serveur d'inférence CPU qui s'accélère au fil du temps
Reame est un serveur d'inférence tournant sur CPU qui optimise ses performances dynamiquement à mesure qu'il traite des requêtes.
MARCHE
heat 72
Les entreprises face à l'explosion des coûts liés à l'IA
Alors que les dépenses en IA s'envolent, les organisations cherchent en urgence des stratégies pour maîtriser des factures de plus en plus difficiles à justifier.
RECHERCHE
heat 52
Optimisation de l'inférence pour MiMo v2.5 : maximiser l'efficacité du Hybrid SWA
Xiaomi détaille les techniques d'optimisation d'inférence de son modèle MiMo v2.5, centré sur l'architecture Hybrid Sliding Window Attention.
RECHERCHE
nvidiaheat 52
Co-conception matérielle : comment concevoir des LLM adaptés au hardware
NVIDIA détaille comment les choix d'architecture d'un LLM influencent directement le débit de tokens et la latence perçue par l'utilisateur.
OUTILS
heat 55
Frugon : identifier quels appels LLM pourraient être traités par un modèle moins coûteux
Un outil open-source MIT pour analyser ses logs d'appels LLM et repérer les requêtes qui ne nécessitent pas un modèle coûteux.
OUTILS
huggingfaceheat 62
Backend de modélisation transformers à vitesse native pour vLLM
Hugging Face intègre un backend transformers natif dans vLLM, permettant d'atteindre des vitesses d'inférence optimales sans surcoût de conversion.
RECHERCHE
heat 52
Abandon précoce des épisodes d'agents LLM par cascade de sondes à rappel contrôlé
Des chercheurs montrent que l'échec d'un agent LLM est prévisible dès le premier tour via ses représentations internes, permettant d'économiser jusqu'à 47 % du calcul d'inférence.
RECHERCHE
heat 52
FreqDepthKV : compression du cache KV guidée par la fréquence et la profondeur pour l'inférence LLM longue
Une nouvelle méthode de compression du cache KV à l'inférence divise les états en composantes basse fréquence partagées et résidus haute fréquence, sans réentraînement.
RECHERCHE
heat 52
DepthWeave-KV : compression adaptative du cache KV par factorisation résiduelle inter-couches
Une nouvelle méthode réduit jusqu'à 8,3× la mémoire du cache KV des LLMs en contexte long, sans réentraîner le modèle de base.
OUTILS
nvidiaheat 72
Le CPU NVIDIA Vera améliore le débit des usines IA pour les workloads agentiques
NVIDIA présente son CPU Vera, conçu pour accélérer les tâches intermédiaires entre les étapes GPU dans les systèmes agentiques à grande échelle.
OPINION
heat 52
Le rapport performance/prix de l'IA s'améliore rapidement sur AMD
Un benchmark comparatif montre que les GPU AMD offrent désormais une alternative sérieuse aux puces NVIDIA pour l'inférence de modèles LLM à moindre coût.
OPINION
heat 72
Prix des tokens en chute, régulation en hausse : le pouvoir de tarification de l'IA fragilisé
Alors que le coût des tokens s'effondre et que les régulateurs resserrent leur emprise, la capacité des acteurs de l'IA à maintenir leurs marges est remise en question.
OUTILS
heat 62
Guide pratique pour faire tourner des LLM de pointe en local
Un développeur publie un guide complet pour exécuter les meilleurs LLM disponibles directement sur sa machine, sans dépendance cloud.
RECHERCHE
heat 52
OrbitQuant : quantification sans données pour les diffusion transformers image et vidéo
OrbitQuant propose une quantification post-entraînement agnostique aux données pour les DiTs, atteignant l'état de l'art jusqu'en W2A4 sur FLUX.1, Wan 2.1 et CogVideoX.
RECHERCHE
heat 52
ReContext : replay récursif de preuves pour le raisonnement sur longs contextes
Une méthode d'inférence sans entraînement améliore l'utilisation des preuves dans les LLMs sur des contextes de 128K tokens.
OUTILS
nvidiaheat 42
La sécurité IA ancrée dans le matériel selon NVIDIA : performances préservées
NVIDIA présente sa solution Confidential Computing pour protéger les données en cours d'inférence sans compromis sur les performances.
RECHERCHE
heat 52
QuasiMoTTo : mise à l'échelle de l'inférence par quasi-Monte Carlo
Une méthode de sampling corrélé qui réduit la redondance lors du scaling de l'inférence, sans sacrifier la parallélisation ni la rigueur statistique.
OUTILS
huggingfaceheat 62
Hugging Face et Cerebras intègrent Gemma 4 à l'IA vocale en temps réel
Le modèle Gemma 4 de Google tourne désormais en inférence ultra-rapide via Cerebras pour alimenter des applications vocales en temps réel.
OUTILS
heat 72
Mistral lance Leanstral 1.5, un modèle léger optimisé pour l'efficacité
Mistral publie Leanstral 1.5, un nouveau modèle conçu pour offrir de hautes performances avec une empreinte computationnelle réduite.
OUTILS
heat 55
DGX Spark face au Mac Studio et au Halo : comparaison matérielle pour l'IA locale
Le DGX Spark de NVIDIA s'attaque au marché des stations de travail IA compactes, face au Mac Studio d'Apple et d'autres alternatives.
OUTILS
deepmindheat 78
Gemini Nano Banana 2 Lite et Gemini Omni Flash désormais disponibles pour les développeurs
DeepMind ouvre l'accès à deux nouveaux modèles Gemini optimisés pour la légèreté et la rapidité d'inférence.
OUTILS
heat 72
ZLUDA 6 : exécuter des applications CUDA sans modification sur des GPU non-Nvidia
Le projet ZLUDA franchit une nouvelle étape avec sa version 6, permettant de faire tourner des workloads CUDA natifs sur du matériel AMD ou Intel.
OUTILS
heat 72
Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale
Cerebras annonce le support de Gemma 4 sur son infrastructure, combinant sa vitesse d'inférence record avec les capacités multimodales du modèle de Google.
MARCHE
heat 72
Meta utilise le CXL pour réemployer de la DDR4 ancienne et réduire ses flottes d'inférence de 25 %
Meta a développé un ASIC CXL maison permettant de recycler la mémoire DDR4 de serveurs obsolètes, réduisant la taille de certaines flottes d'inférence d'un quart.

30 items

#inférence

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

SIGNAL
heat 45
Hetzner développerait une offre d'inférence LLM
L'hébergeur allemand Hetzner, connu pour ses serveurs bon marché, préparerait un service d'inférence de modèles de langage.
RECHERCHE
heat 35
PyroDash : inférence collaborative token par token entre petits et grands modèles de langage
Un framework où un petit modèle décide lui-même quand solliciter un LLM, réduisant fortement les coûts d'inférence sans sacrifier la précision.
OUTILS
heat 55
Google mise l'avenir de son inférence sur une puce conçue pour un seul modèle
Google grave son architecture Gemini directement dans le silicium, un pari risqué mais potentiellement décisif pour l'inférence à grande échelle.
RECHERCHE
heat 35
FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel
Un nouveau framework guide des agents de codage pour transformer des implémentations de référence en déploiements multi-GPU optimisés, avec des gains massifs de latence.
OPINION
heat 42
Ce qui se passe entre la saisie du prompt et l'apparition du premier mot
Un article pédagogique détaille la mécanique interne des LLM, du tokenisation à la génération du premier token en sortie.
OUTILS
heat 52
Mesh LLM : l'inférence IA distribuée sur le réseau iroh
Iroh propose une architecture peer-to-peer pour faire tourner des LLM en distribué, sans infrastructure centralisée.
OUTILS
heat 52
Reame – un serveur d'inférence CPU qui s'accélère au fil du temps
Reame est un serveur d'inférence tournant sur CPU qui optimise ses performances dynamiquement à mesure qu'il traite des requêtes.
MARCHE
heat 72
Les entreprises face à l'explosion des coûts liés à l'IA
Alors que les dépenses en IA s'envolent, les organisations cherchent en urgence des stratégies pour maîtriser des factures de plus en plus difficiles à justifier.
RECHERCHE
heat 52
Optimisation de l'inférence pour MiMo v2.5 : maximiser l'efficacité du Hybrid SWA
Xiaomi détaille les techniques d'optimisation d'inférence de son modèle MiMo v2.5, centré sur l'architecture Hybrid Sliding Window Attention.
RECHERCHE
nvidiaheat 52
Co-conception matérielle : comment concevoir des LLM adaptés au hardware
NVIDIA détaille comment les choix d'architecture d'un LLM influencent directement le débit de tokens et la latence perçue par l'utilisateur.
OUTILS
heat 55
Frugon : identifier quels appels LLM pourraient être traités par un modèle moins coûteux
Un outil open-source MIT pour analyser ses logs d'appels LLM et repérer les requêtes qui ne nécessitent pas un modèle coûteux.
OUTILS
huggingfaceheat 62
Backend de modélisation transformers à vitesse native pour vLLM
Hugging Face intègre un backend transformers natif dans vLLM, permettant d'atteindre des vitesses d'inférence optimales sans surcoût de conversion.
RECHERCHE
heat 52
Abandon précoce des épisodes d'agents LLM par cascade de sondes à rappel contrôlé
Des chercheurs montrent que l'échec d'un agent LLM est prévisible dès le premier tour via ses représentations internes, permettant d'économiser jusqu'à 47 % du calcul d'inférence.
RECHERCHE
heat 52
FreqDepthKV : compression du cache KV guidée par la fréquence et la profondeur pour l'inférence LLM longue
Une nouvelle méthode de compression du cache KV à l'inférence divise les états en composantes basse fréquence partagées et résidus haute fréquence, sans réentraînement.
RECHERCHE
heat 52
DepthWeave-KV : compression adaptative du cache KV par factorisation résiduelle inter-couches
Une nouvelle méthode réduit jusqu'à 8,3× la mémoire du cache KV des LLMs en contexte long, sans réentraîner le modèle de base.
OUTILS
nvidiaheat 72
Le CPU NVIDIA Vera améliore le débit des usines IA pour les workloads agentiques
NVIDIA présente son CPU Vera, conçu pour accélérer les tâches intermédiaires entre les étapes GPU dans les systèmes agentiques à grande échelle.
OPINION
heat 52
Le rapport performance/prix de l'IA s'améliore rapidement sur AMD
Un benchmark comparatif montre que les GPU AMD offrent désormais une alternative sérieuse aux puces NVIDIA pour l'inférence de modèles LLM à moindre coût.
OPINION
heat 72
Prix des tokens en chute, régulation en hausse : le pouvoir de tarification de l'IA fragilisé
Alors que le coût des tokens s'effondre et que les régulateurs resserrent leur emprise, la capacité des acteurs de l'IA à maintenir leurs marges est remise en question.
OUTILS
heat 62
Guide pratique pour faire tourner des LLM de pointe en local
Un développeur publie un guide complet pour exécuter les meilleurs LLM disponibles directement sur sa machine, sans dépendance cloud.
RECHERCHE
heat 52
OrbitQuant : quantification sans données pour les diffusion transformers image et vidéo
OrbitQuant propose une quantification post-entraînement agnostique aux données pour les DiTs, atteignant l'état de l'art jusqu'en W2A4 sur FLUX.1, Wan 2.1 et CogVideoX.
RECHERCHE
heat 52
ReContext : replay récursif de preuves pour le raisonnement sur longs contextes
Une méthode d'inférence sans entraînement améliore l'utilisation des preuves dans les LLMs sur des contextes de 128K tokens.
OUTILS
nvidiaheat 42
La sécurité IA ancrée dans le matériel selon NVIDIA : performances préservées
NVIDIA présente sa solution Confidential Computing pour protéger les données en cours d'inférence sans compromis sur les performances.
RECHERCHE
heat 52
QuasiMoTTo : mise à l'échelle de l'inférence par quasi-Monte Carlo
Une méthode de sampling corrélé qui réduit la redondance lors du scaling de l'inférence, sans sacrifier la parallélisation ni la rigueur statistique.
OUTILS
huggingfaceheat 62
Hugging Face et Cerebras intègrent Gemma 4 à l'IA vocale en temps réel
Le modèle Gemma 4 de Google tourne désormais en inférence ultra-rapide via Cerebras pour alimenter des applications vocales en temps réel.
OUTILS
heat 72
Mistral lance Leanstral 1.5, un modèle léger optimisé pour l'efficacité
Mistral publie Leanstral 1.5, un nouveau modèle conçu pour offrir de hautes performances avec une empreinte computationnelle réduite.
OUTILS
heat 55
DGX Spark face au Mac Studio et au Halo : comparaison matérielle pour l'IA locale
Le DGX Spark de NVIDIA s'attaque au marché des stations de travail IA compactes, face au Mac Studio d'Apple et d'autres alternatives.
OUTILS
deepmindheat 78
Gemini Nano Banana 2 Lite et Gemini Omni Flash désormais disponibles pour les développeurs
DeepMind ouvre l'accès à deux nouveaux modèles Gemini optimisés pour la légèreté et la rapidité d'inférence.
OUTILS
heat 72
ZLUDA 6 : exécuter des applications CUDA sans modification sur des GPU non-Nvidia
Le projet ZLUDA franchit une nouvelle étape avec sa version 6, permettant de faire tourner des workloads CUDA natifs sur du matériel AMD ou Intel.
OUTILS
heat 72
Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale
Cerebras annonce le support de Gemma 4 sur son infrastructure, combinant sa vitesse d'inférence record avec les capacités multimodales du modèle de Google.
MARCHE
heat 72
Meta utilise le CXL pour réemployer de la DDR4 ancienne et réduire ses flottes d'inférence de 25 %
Meta a développé un ASIC CXL maison permettant de recycler la mémoire DDR4 de serveurs obsolètes, réduisant la taille de certaines flottes d'inférence d'un quart.

Hetzner développerait une offre d'inférence LLM

PyroDash : inférence collaborative token par token entre petits et grands modèles de langage

Google mise l'avenir de son inférence sur une puce conçue pour un seul modèle

FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel

Ce qui se passe entre la saisie du prompt et l'apparition du premier mot

Mesh LLM : l'inférence IA distribuée sur le réseau iroh

Reame – un serveur d'inférence CPU qui s'accélère au fil du temps

Les entreprises face à l'explosion des coûts liés à l'IA

Optimisation de l'inférence pour MiMo v2.5 : maximiser l'efficacité du Hybrid SWA

Co-conception matérielle : comment concevoir des LLM adaptés au hardware

Frugon : identifier quels appels LLM pourraient être traités par un modèle moins coûteux

Backend de modélisation transformers à vitesse native pour vLLM

Abandon précoce des épisodes d'agents LLM par cascade de sondes à rappel contrôlé

FreqDepthKV : compression du cache KV guidée par la fréquence et la profondeur pour l'inférence LLM longue

DepthWeave-KV : compression adaptative du cache KV par factorisation résiduelle inter-couches

Le CPU NVIDIA Vera améliore le débit des usines IA pour les workloads agentiques

Le rapport performance/prix de l'IA s'améliore rapidement sur AMD

Prix des tokens en chute, régulation en hausse : le pouvoir de tarification de l'IA fragilisé

Guide pratique pour faire tourner des LLM de pointe en local

OrbitQuant : quantification sans données pour les diffusion transformers image et vidéo

ReContext : replay récursif de preuves pour le raisonnement sur longs contextes

La sécurité IA ancrée dans le matériel selon NVIDIA : performances préservées

QuasiMoTTo : mise à l'échelle de l'inférence par quasi-Monte Carlo

Hugging Face et Cerebras intègrent Gemma 4 à l'IA vocale en temps réel

Mistral lance Leanstral 1.5, un modèle léger optimisé pour l'efficacité

DGX Spark face au Mac Studio et au Halo : comparaison matérielle pour l'IA locale

Gemini Nano Banana 2 Lite et Gemini Omni Flash désormais disponibles pour les développeurs

ZLUDA 6 : exécuter des applications CUDA sans modification sur des GPU non-Nvidia

Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale

Meta utilise le CXL pour réemployer de la DDR4 ancienne et réduire ses flottes d'inférence de 25 %

Hetzner développerait une offre d'inférence LLM

PyroDash : inférence collaborative token par token entre petits et grands modèles de langage

Google mise l'avenir de son inférence sur une puce conçue pour un seul modèle

FlashRT : un agent qui optimise le déploiement d'applications multimodales temps réel

Ce qui se passe entre la saisie du prompt et l'apparition du premier mot

Mesh LLM : l'inférence IA distribuée sur le réseau iroh

Reame – un serveur d'inférence CPU qui s'accélère au fil du temps

Les entreprises face à l'explosion des coûts liés à l'IA

Optimisation de l'inférence pour MiMo v2.5 : maximiser l'efficacité du Hybrid SWA

Co-conception matérielle : comment concevoir des LLM adaptés au hardware

Frugon : identifier quels appels LLM pourraient être traités par un modèle moins coûteux

Backend de modélisation transformers à vitesse native pour vLLM

Abandon précoce des épisodes d'agents LLM par cascade de sondes à rappel contrôlé

FreqDepthKV : compression du cache KV guidée par la fréquence et la profondeur pour l'inférence LLM longue

DepthWeave-KV : compression adaptative du cache KV par factorisation résiduelle inter-couches

Le CPU NVIDIA Vera améliore le débit des usines IA pour les workloads agentiques

Le rapport performance/prix de l'IA s'améliore rapidement sur AMD

Prix des tokens en chute, régulation en hausse : le pouvoir de tarification de l'IA fragilisé

Guide pratique pour faire tourner des LLM de pointe en local

OrbitQuant : quantification sans données pour les diffusion transformers image et vidéo

ReContext : replay récursif de preuves pour le raisonnement sur longs contextes

La sécurité IA ancrée dans le matériel selon NVIDIA : performances préservées

QuasiMoTTo : mise à l'échelle de l'inférence par quasi-Monte Carlo

Hugging Face et Cerebras intègrent Gemma 4 à l'IA vocale en temps réel

Mistral lance Leanstral 1.5, un modèle léger optimisé pour l'efficacité

DGX Spark face au Mac Studio et au Halo : comparaison matérielle pour l'IA locale

Gemini Nano Banana 2 Lite et Gemini Omni Flash désormais disponibles pour les développeurs

ZLUDA 6 : exécuter des applications CUDA sans modification sur des GPU non-Nvidia

Gemma 4 sur Cerebras : l'inférence la plus rapide devient multimodale

Meta utilise le CXL pour réemployer de la DDR4 ancienne et réduire ses flottes d'inférence de 25 %