JdS2012


 English   -  Français  

Résumé de communication



Résumé 186 :

Classification et Sélection de Variables en Régression
Yengo, Loïc ; Jacques, Julien ; Biernacki, Christophe
CNRS

Grand nombre de domaines scientifiques sont confrontés à une production massive de données visant la caractérisation de plus en plus fine des entités statistiques auxquelles ils s'intéressent. Cette profusion de descripteurs par individus rend difficile voire, impossible l'utilisation de méthodes classiques telles que le modèle de régression linéaire sans un certain nombre de contraintes. Trois grands types de stratégies ont donc été proposés afin de réduire la dimension de ces nouveaux problèmes. Il s'agit premièrement d'approches dîtes de sélection de variables comme par exemple les approches séquentielles (stepwise selection), ou encore les approches dîtes pénalisées comme l'approche LASSO. Le deuxième type de stratégie comprend les méthodes visant à agréger l'information à travers la création de meta-variables. On peut citer dans ce cas la régression sur composantes principales, ou encore la régression PLS. Enfin, le dernier type de stratégie permet simultanément de sélectionner les meilleurs prédicteurs tout en les agrégeant. C'est dans ce dernier cadre que s'inscrit notre approche. Notre approche suppose l'existence d'une partition des prédicteurs telle que chaque prédicteurs appartenant à la même classe soit exactement associé à un unique coefficient de régression. La sélection des prédicteurs est effectuée en considérant l'existence d'une classe dont le coefficient est 0. L'estimation est effectuée par maximum de vraisemblance et vise l'inférence conjointe des coefficients de régression et de la partition latente. Nous avons testé notre approche sur des données simulées et réelles et pu apprécier les bonnes propriétés prédictives et explicatives de cette méthode.