Projet CODE

Classification de données bruitées

 



  Machine Learning

  Inverse Problems

  Errors-in-Variable models

Description

Le projet CODE est un projet de valorisation de la recherche dont le but est d'implémenter des algorithmes de classifications de données bruitées. Dans de nombreux problèmes réels, les données observées sont entachées d'erreurs de mesures, ou sont issues d'estimations sur un phénomène observé, parfois complexe. On parle de données bruitées ou indirectes. A titre d'exemple, lors d'une prévision météorologique, l'ingénieur se base sur des résultats de mesures physiques, entachées d'erreurs.
La théorie de l'apprentissage statistique a fournit ces 15 dernières années de nouveaux algorithmes utilisés dans de nombreux domaines des sciences. L'algorithme le plus marquant est sans doute l'algorithme de classification SVM (Support Vector Machines), développé à la fin des années 90 par le théoricien Vladimir Vapnik. Il suscite aujourd'hui un champ très vaste d'applications, de la reconnaissance d'emprunte digitale au diagnostic médical.

Ce programme de valorisation consiste à construire des algorithmes d'apprentissage à partir de données indirectes. En effet à ce jour les algorithmes d'apprentissage classiques ne tiennent pas compte de la présence de données bruitées. L'enjeu de ce programme est de mettre en oeuvre des méthodes de classification de données indirectes issues de résultats mathématiques récents de la théorie statistique de l'apprentissage.

Un premier algorithme, nommé noisy k-means, a été développé. Il s'agit d'une altération de l'algorithme K-means adaptée au problème des données bruitées.
Les performances de l'algorithme dépendent fortement du choix d'un paramètre de fenètre, probème équivalent à celui rencontré en estimation d'une densité.
Les premières simulations ont montrées l'existence de paramètres permettant de retrouver les bonnes classes alors que l'algorithme K-means échoue.
À l'heure actuelle, nous disposons de deux méthodes de sélection automatique de ce paramètre. La première ( méthode ERC ) est bas&eactue;e sur la méthode de Lepski, et s'applique au cas isotrope alors que la seconde, ( méthode du Gradient ), s'applique aux cas anisotropes.
Les résultats de la première méthode de sélection, en utilisant l'algorithme Intersection of Confidence Interval (ICI) montrent des résultats encourageants sur la baisse du taux d'erreur de classification par rapport à l'algorithme k-means.

Présentation des travaux

Les slides avec l'adaptation (méthode ICI)

Contact

Sébastien Loustau, Enseignant chercheur www.math.univ-angers.fr/~loustau
Camille Brunet, post-doctorante, prenom.nom[at]univ-angers.fr
Simon Souchet, ingénieur de recherche, prenom.nom[at]univ-angers.fr