RECHERCHE
Réduire l'instabilité des prédictions inter-échantillons en ML scientifique
Des modèles identiques entraînés sur des tirages différents peuvent diverger sur 22 % des prédictions individuelles, même à précision globale équivalente.
arXiv cs.AI · cs.LG · cs.CL·Gordan Prastalo, Kevin Maik Jablonka·13 mai 2026

Image · Source originale
Sur 9 benchmarks de chimie, deux classifieurs entraînés sur des bootstraps indépendants du même jeu de données présentent un accord global de 1,3 à 4,2 points de pourcentage, mais divergent sur 8 à 21,8 % des prédictions individuelles — un phénomène nommé 'cross-sample prediction churn'. Les méthodes classiques côté paramètres (ensembles profonds, MC dropout) ne réduisent pas cet écart. En revanche, le K-bootstrap bagging le diminue de 40 à 54 %, et le 'twin-bootstrap' — deux réseaux entraînés conjointement avec une perte de cohérence sym-KL — réduit encore le churn de 45 % supplémentaires.