RECHERCHE
AgenticRL : apprentissage par renforcement auto-raffiné pour la navigation de drones par vision
Un agent GPT multimodal conçoit, évalue et raffine en boucle fermée les fonctions de récompense pour piloter des drones autonomes.
arXiv cs.AI · cs.LG · cs.CL·Roohan Ahmed Khan, Yasheerah Yaqoot, Muhammad Ahsan Mustafa, Dzmitry Tsetserukou·2 juin 2026

Image · Source originale
AgenticRL est un framework combinant un agent GPT multimodal et l'algorithme PPO pour automatiser la conception de récompenses, l'entraînement et le raffinement de politiques de navigation pour drones (UAV). L'agent évalue les politiques entraînées via des paquets de diagnostic, identifie les modes d'échec et affine la fonction de récompense en boucle fermée. Lors de l'inférence, il sélectionne automatiquement la politique adaptée à partir d'images réelles et d'instructions en langage naturel. Le framework est validé sur plusieurs tâches : traversée d'obstacles, suivi de trajectoire et atterrissage.