JdS2012


 English   -  Français  

Résumé de communication



Résumé 174 :

Efficacité de classification de la méthode des k-moyennes tronquées
Ruwet, Christel
Univeristé de Liège

La méthode des $k$-moyennes est utilisée en classification afin de regrouper les observations les plus similaires dans $k$ groupes. Lorsque un second échantillon est disponible pour tester la qualité des regroupements ainsi obtenus, le taux de mauvaise classification peut être calculé. Si les échantillons proviennent d'une mixture de deux distributions homogènes et à symétrie sphérique, alors le taux de mauvaise classification atteint celui obtenu avec la règle de Bayes. Cela étant, la méthode des $k$-moyennes est optimale sous ce modèle de mixture. Elle n'est cependant pas robuste aux points aberrants qui pourraient se trouver dans l'échantillon servant à construire les groupements. Pour enrayer ce problème, le méthode des $k$-moyennes a été adaptée de diverses façons. Cette présentation s'intéresse à la méthode des $k$-moyennes tronquées qui est définie en écartant une certaine proportion des observations. L'avantage de cette méthode, outre sa résistance aux points aberrants, est que le caractère optimal de la classification obtenue est conservé. Il est cependant bien connu que la suppression d'une partie des observations conduit à une perte d'efficacité de classification. Celle-ci peut être mesurée à l'aide de la fonction d'influence du taux de mauvaise classification.