2 items
#attention
Toutes les news taguées avec ce sujet.
- RECHERCHEheat 42
Des contraintes de mémoire de travail améliorent l'apprentissage des Transformers en données limitées
Intégrer des mécanismes d'attention inspirés de la cognition humaine dans GPT-2 améliore la précision grammaticale quand les données d'entraînement sont rares.
- RECHERCHEheat 62
Stream-CQSA : éviter les dépassements mémoire dans le calcul de l'attention via un ordonnancement flexible
Un nouveau cadre d'ordonnancement permet d'exécuter une attention exacte sur des séquences de milliards de tokens sur un seul GPU, sans approximation.