JdS2012


 English   -  Français  

Résumé de communication



Résumé 216 :

Information mutuelle et partition optimale du support d'une mesure de probabilité
Colin, Bernard ; Monga, Ernest
Université de Sherbrooke

Résumé Dans les banques de données actuelles, on dispose en général d'une multitude d'observations sur lesquelles on mesure un très grand nombre de variables, tant quantitatives que qualitatives et que l'on doit prendre simultanément en considération lorsqu'il s'agit, lors d'analyses de données, d'expliquer et de prédire à l'aide d'un modèle particulier, l'évolution de l'ensemble des variables. Afin de rendre ce dernier homogène, il semble alors naturel de discrétiser les variables continues, de sorte que la dépendance stochastique entre toutes les variables soit conservée le plus possible lors de cette opération de réduction des données. A cette fin, on propose d'utiliser les outils de la théorie de l'information, et plus précisement celui de l'information mutuelle et de la divergence entre mesures de probabilité, afin de réaliser une partition en un nombre donné de classes, du support de la mesure de probabilité conjointe des variables continues, qui satisfasse à cette condition. Dans la pratique, dû au fait que la loi conjointe est en général inconnue, on recourt soit à une approche non-paramètrique par le biais d'une estimation fonctionnelle de densité, soit à une approche semi-paramétrique en estimant les paramètres d'une loi appartenant à une famille donnée. Deux aspects importants sont alors à prendre en considération : celui théorique de la convergence de la suite des partitions empiriques optimales vers la partition théorique optimale et celui, plus pratique, de la réalisation d'une telle partition dans un cas concret. C'est l'aspect que l'on retiendra principalement ici, bien que certains résultats de convergence seront présentés.