JdS2012


 English   -  Français  

Résumé de communication



Résumé 92 :

Classification automatique de données hétérogènes
Jacques, Julien
Université Lille 1 - INRIA

Quel que soit le domaine d'application, le statisticien est très souvent confronté à des bases de données dans lesquelles les observations statistiques sont de différentes natures : quantitative, catégorielle, ordinale, fonctionnelle... Dépourvu de méthodes statistiques permettant de prendre en compte l'hétérogénéité de ces variables, le statisticien n'a alors guère d'autres choix que d'uniformiser la nature des variables. Pour cela, il pourra par exemple découper les variables quantitatives en classes, ou encore omettre l'ordre des variables ordinales. Dans cet article nous nous intéressons à la classification automatique de données décrites par des variables catégorielles et quantitatives. Nous présentons un modèle simple supposant l'indépendance (conditionnellement à la connaissance du groupe d'appartenance) entre les variables catégorielles et quantitatives, et démontrons l'intérêt de ce modèle sur une application en santé publique.