Toutes les news taguées avec ce sujet.
Un cadre unifié réconcilie GP-UCB et DEC pour les bandits RKHS fréquentistes, montrant que complexité algorithmique et minimax répondent à des questions distinctes.
Des chercheurs proposent Q-target, un framework qui réinterprète le SFT comme un problème de conception de distribution de probabilités au niveau du token.
Une nouvelle méthode, DRPO, remplace les masques rigides de DPPO par un régularisateur quadratique continu pour stabiliser l'entraînement par RL des LLM.
Tilert.ai détaille comment deux avancées techniques ont permis de franchir le seuil de 1000 tokens/seconde sur un LLM à 1 trillion de paramètres.
Une approche basée sur des surrogates différentiables élimine les itérations coûteuses dans l'exploration de l'espace de conception pour l'intégrité du signal haute vitesse.
Un outil open-source en ligne de commande conçu pour éliminer le bruit dans les entrées envoyées aux LLM et réduire drastiquement l'usage de tokens.
Une couche de préconditionnement polynomial stabilise le spectre des valeurs singulières pendant l'entraînement, sans surcoût à l'inférence.
Une startup YC W21 propose un outil pour monitorer et réduire les coûts d'appels aux LLM dans les pipelines d'agents.
Une architecture parallèle de réseaux RBF entraînés par PSO et APSO pour améliorer la scalabilité sur grands jeux de données.
PyTorch publie une analyse technique détaillée sur les mécanismes de fragmentation mémoire dans son allocateur CUDA, un problème critique pour l'entraînement de modèles.
Un essai explore comment les méthodes du lean manufacturing peuvent optimiser les workflows d'inférence des modèles d'IA.
Une approche monotone et sans régularisation paramétrique pour améliorer la classification sur des distributions de données déséquilibrées.
NVIDIA présente DynoSim, un outil de simulation permettant d'explorer les compromis de configuration dans les déploiements LLM à grande échelle.
Hugging Face publie un tutoriel d'introduction à torch.profiler pour identifier les goulots d'étranglement dans les pipelines d'entraînement PyTorch.
Une étude théorique démontre pour la première fois la convergence d'AdaGrad en optimisation non-convexe sous bruit à queue lourde, sans clipping ni connaissance préalable du tail index.
Un système compile et exécute en parallèle les appels aux modèles ML dans des apps Python complexes, atteignant jusqu'à 6,4× d'accélération.
RRFP remplace les ordres d'exécution statiques par une arbitration dynamique basée sur la disponibilité réelle des tâches, réduisant les bulles d'inactivité.
Modal détaille comment combiner plusieurs techniques système pour réduire drastiquement la latence au démarrage des inférences GPU en environnement serverless.
Noah Golmant refond entièrement pytorch-hessian-eigenthings, sa lib de calcul des valeurs propres de la Hessienne pour PyTorch, huit ans après sa création.
Hugging Face explore comment l'asynchronisme peut améliorer l'efficacité du continuous batching pour l'inférence LLM à grande échelle.
Une étude théorique démontre que tout algorithme résolvant un problème min-max non convexe-non concave exige un nombre exponentiel de requêtes.
Un méta-agent observe le contexte d'évolution accumulé et modifie la procédure ou l'agent qui guide les futures itérations, surpassant cinq baselines.
Microsoft publie un modèle léger capable de résoudre les problèmes d'AC optimal power flow en quelques millisecondes, avec des enjeux économiques de 20 milliards de dollars.
Un nouvel algorithme d'échantillonnage pour distributions log-concaves composites, avec garanties de convergence optimales via un oracle gaussien restreint.
Une nouvelle méthode de gradient de politique généralisée sur k étapes permet de dépasser les points critiques sous-optimaux dans les MDP à classes de politiques restreintes.
Une reformulation mathématique du problème de navigation multi-robots comme transport optimal réduit drastiquement la complexité de calcul.
Un framework permet à des agents LLM de découvrir automatiquement des stratégies de test-time scaling, surpassant les approches conçues manuellement pour moins de 40 $.
Un chercheur de Modal obtient plus de 10 % de performance supplémentaire en inférence multimodale grâce à une astuce de configuration minimaliste.
Un pipeline entièrement fondé sur des données publiques produit des modèles de réseau de transport d'électricité couvrant les 48 États américains.
NVIDIA détaille l'utilisation de son outil Model Optimizer pour quantifier des LLMs et réduire leur empreinte mémoire sur GPU grand public.