JdS2012


 English   -  Français  

Résumé de communication



Résumé 154 :

Analyse du biais de forêts purement aléatoires
Genuer, Robin ; ARLOT, Sylvain
Université Bordeaux, ISPED, Centre Inserm U-897

Introduites par Leo Breiman en 2001, les forêts aléatoires sont une méthode statistique très performante. D'un point de vue théorique, leur analyse est difficile, du fait de la complexité de l'algorithme. Pour expliquer ces performances, des versions de forêts aléatoires simplifiées (et donc plus faciles à analyser) ont été introduites : les forêts purement aléatoires. Dans cet article, nous nous intéressons à l'erreur d'approximation (ou biais) de forêts purement aléatoires, dans un cadre de régression. Nous montrons, sous des hypothèses de régularité sur la fonction de régression, que le biais d'une forêt décroît plus vite que celui d'un arbre. Nous en déduisons ensuite que la vitesse de convergence du risque quadratique d'une forêt est plus rapide que celle d'un arbre. Par exemple, dans un cas simple avec des entrées en une dimension, nous montrons que si la fonction de régression est de classe C^2, l'estimateur forêt atteint la vitesse minimax de convergence en n^(-4/5), alors que l'estimateur arbre converge à vitesse n^(-2/3).