JdS2012


 English   -  Français  

Résumé de communication



Résumé 247 :

Régression semi-supervisée à noyaux à valeur opérateur pour la prédiction de liens
brouard, céline ; d'Alché-Buc, florence ; Szafranski, marie
université d'evry

L’objectif de ce travail est de développer une nouvelle méthode pour le problème de la prédiction de liens dans le cadre de l’apprentissage semi-supervisé. Pour cela, nous avons choisi de convertir le problème de classification binaire à partir de paires d’objets en un problème d’apprentissage d’un noyau de sortie, supposé encoder la proximité des données dans le graphe cible. L’utilisation de l’astuce du noyau dans l’espace de sortie permet de réduire l’apprentissage à celui d’une fonction d’une seule variable à valeur vectorielle dans un espace de Hilbert. Nous nous plaçons dans le cadre de la théorie des espaces de Hilbert à noyau auto-reproduisant pour des fonctions à valeurs vectorielles, dans laquelle les noyaux sont à valeurs opérateurs. Cette théorie nous fournit un cadre général pour la régression à sortie noyau et nous établissons à partir de celle-ci un nouveau théorème de représentation dédié à la régression semi-supervisée pour un coût quadratique pénalisé. Nous choisissons ensuite un noyau à valeur opérateur défini à partir d’un noyau d’entrée à valeurs scalaires. La minimisation des moindres carrés pénalisés dans ce cadre conduit à une solution analytique comme dans le cas de la régression ridge qui est donc ici étendue. Nous étudions la pertinence de cette nouvelle approche dans le cadre transductif sur des données artificielles et deux applications réelles : la complétion d’un réseau d’interactions protéine-protéine et d’un réseau de co-publications. Ces expériences montrent que l’utilisation des données non étiquetées permet d’améliorer les performances lorsque un faible pourcentage de données est étiqueté.