JdS2012


 English   -  Français  

Résumé de communication



Résumé 125 :

Vitesses de convergence pour la quantification vectorielle
Levrard, Clément
Université Paris 6 et Paris 11

Le principe de la quantification vectorielle est de résumer une distribution $P$ sur $\mathbb{R}^d$ en $k$ points, ce qui se traduit en pratique par le découpage d'un jeu de données en $k$ groupes d'individus que l'on souhaite représentatifs de la distribution originelle. Les applications sont nombreuses et vont de la théorie de l'information au pré-processing de jeux de données de taille importante. Plus précisément, un $k$-quantificateur $Q$ est une application de $\mathbb{R}^d$ à valeurs dans $\mathbb{R}^d$ prenant au plus $k$ valeurs différentes. Si l'on mesure sa performance par son risque en norme $2$, $R(Q) = \mathbb{E}\|X-Q(X)\|^2$, où $X$ suit la loi $P$, on peut la comparer avec celle d'un quantificateur optimal $R(Q^*)$ via l'excès de risque ou perte $\ell(Q,Q^*) = R(Q) - R(Q^*)$. On s'intéresse ici au quantificateur $\hat{Q}_n$ obtenu à partir d'un $n$-échantillon de $P$, $(X_1, \hdots, X_n)$, par minimisation du risque empirique $1/n\sum_{i=1}^{n}{\|X_i-Q(X_i)\|^2}$. Ce cadre présente des analogies avec celui de la classification supervisée, que nous exploitons pour obtenir des inégalités de type oracle sur la perte $\ell(\hat{Q}_n,Q^*)$. On détaillera essentiellement l'ordre en la taille $n$ de l'échantillon de cette perte, et mettrons en avant l'existence de conditions intuitives, analogues aux conditions de marge pour la classification supervisée, qui permettent d'améliorer ces vitesses de convergence théoriques vers l'optimalité.