2 items
#efficacité
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 62
Stream-CQSA : éviter les dépassements mémoire dans le calcul de l'attention via un ordonnancement flexible
Un nouveau cadre d'ordonnancement permet d'exécuter une attention exacte sur des séquences de milliards de tokens sur un seul GPU, sans approximation.
- OUTILSdeepmindheat 78
Gemini 3.1 Flash-Lite : intelligence à grande échelle, au moindre coût
DeepMind lance Gemini 3.1 Flash-Lite, le modèle le plus rapide et le plus économique de la série Gemini 3.