RECHERCHE

Semi-bandit combinatoire sur graphe avec récompenses non linéaires via signaux séparables

Un nouveau cadre théorique combine modélisation causale sur graphe, méthodes à noyau et approximation de Taylor pour optimiser l'exploration dans des espaces combinatoires vastes.

arXiv cs.AI · cs.LG · cs.CL·Christoph Bauschmann, Setareh Maghsudi·12 juin 2026

Image · Source originale

Les auteurs proposent des stratégies adaptatives pour le problème du semi-bandit combinatoire sur graphe, intégrant la modélisation causale des récompenses, les méthodes à noyau reproduisant et l'approximation de Taylor de processus fonctionnels. Les garanties théoriques établies sont sous-linéaires en temps et linéaires en volume de données. Le cadre est robuste aux incertitudes liées au bruit, à la convergence progressive et aux inadéquations de l'espace de solutions, validé sur des données synthétiques et de transport réel.

Chaleur 1

Pertinence 42

Nouveauté 65

OUVRIR LA SOURCE ↗

#bandit #graphe #optimisation combinatoire #kernel methods #apprentissage par renforcement