lipn

Laboratoire d'Informatique de Paris Nord

UMR 7030, Université Paris 13, 99 avenue Jean-Baptiste Clément, 93430 Villetaneuse

up13 cnrs

Apprentissage non supervisé évolutif à partir de flux de données

 

Les flux de données posent plusieurs problèmes qui rendent caduques les applications des techniques classiques d'analyse de données. En effet, ces bases de données sont perpétuellement en ligne et grossissent au fur et à mesure de l'arrivée de nouvelles informations. De plus, la distribution de probabilité associée à ces données peut changer au cours du temps (dérive de concept).

Apprentissage non supervisé du nombre de classes

Ce thème concerne le développement d'approches pour la découverte et le suivi de structures de classes dans les données par apprentissage non supervisé.

Résultats :

  • Méthode de clustering à deux niveaux simultanés guidée par le voisinage et la densité DS2L-SOM [3], qui se base sur l'estimation, à partir des données, de valeurs de connectivité et de densité des prototypes d'une carte SOM.
  • Méthode de détection automatique du nombre de clusters [5] sur la base des valeurs calculées ci-dessus. Cette nouvelle méthode permet aussi une description condensée de la distribution des données.

Mesure de (dis)similarité entre structures

Les propriétés de l'algorithme précédent rendent possible l'analyse de grandes bases de données, y compris de grands flux de données car il permet d'obtenir des représentations synthétiques de la structure des données permettant un stockage efficace des informations du flux. Cette représentation couplée avec une mesure de (dis)similarité entre structures permet la détection de changements ou de dérive de concept [4].

Résultats :

  • Algorithme de suivi des données d'un flux permettant le stockage régulier de la structure des données, ainsi que la compression de ces informations au cours du temps [6]. Les informations stockées peuvent ensuite être comparées entre elles pour l'analyse de l'évolution de la structure du flux de données. Ces approches ont été testées sur deux applications réelles pour le suivi d'individus dans un dispositif RFID (ANR Blanc Sillages [8] et ANR CADI [7]).

Apprentissage non supervisé avec mémoire

Dans le cadre de l'analyse de données évolutives, il est naturel d'utiliser l'historique des données afin de découvrir la structure des données avec une meilleure qualité.

Résultats :

  • Nouvelle stratégie d'apprentissage pour les algorithmes de classification topographique basés sur le modèle SOM [1], qui consiste à choisir le neurone le plus actif en tenant compte de son historique d'activation appris dans une matrice de vote à partir de l'ensemble des données. La performance observée de cette stratégie est effectivement meilleure (erreur topographique plus faible et pureté de la classification plus élevée).

Caractérisation des classes découvertes

La fonction de base d'une méthode de sélection de variables (attributs/caractéristiques) est de choisir un sous-ensemble de variables pertinentes à partir de la représentation vectorielle des formes observées.

Résultats :

  • Proposition d'approches qui consistent à pondérer les variables en fonction de leur participation à la qualité de la classification [2, 9]. Cette pondération permet d'estimer durant le processus de la classification la pertinence de chaque variable et ainsi de sélectionner des sous-ensembles de caractéristiques propres à chaque classe découverte.

Références

  1. Nistor Grozavu and Younès Bennani. « A new competitive strategy for self organizing map learning », In Proceedings of the International Conference on Machine Learning and Applications (ICMLA'09), pages 689-692, Miami Beach, Florida, USA, Dec 2009. IEEE Computer Society.
  2. Nistor Grozavu, Younès Bennani, and Mustapha Lebbah. « Cluster-dependent feature selection through a weighted learning paradigm », In Fabrice Guillet, Gilbert Ritschard, Djamel Zighed, and Henri Briand, editors, Advances in Knowledge Discovery and Management, volume 292 of Studies in Computational Intelligence, pages 133-147. Springer Berlin / Heidelberg, 2010.
  3. Guénaël Cabanes and Younès Bennani. « A local density-based simultaneous two-level algorithm for topographic clustering », In Proceedings of the International Joint Conference on Neural Networks (IJCNN 2008), pages 1176-1182, Hong Kong, China, Jun 2008. IEEE.
  4. Guénaël Cabanes and Younès Bennani. « Comparing large datasets structures through unsupervised learning », In Chi-Sing Leung, Minho Lee, and Jonathan Hoyin Chan, editors, Proceedings of the 16th International Conference On Neural Information Processing (ICONIP'09), Part I, volume 5863 of Lecture Notes in Computer Science, pages 546-553, Bangkok, Thailand, dec 2009. Springer.
  5. Guénaël Cabanes and Younès Bennani. « Learning the number of clusters in Self Organizing Map », In Self-Organizing Maps, pages 15-28. IN-TECH Publisher, 2010. (Invited book chapter)
  6. Guénaël Cabanes and Younès Bennani. « Change detection in data streams through unsupervised learning », In Proceedings of the International Joint Conference on Neural Networks (IJCNN 2012), pages 2659-2664, Brisbane, Australia, Jun 2012. IEEE.
  7. Guénaël Cabanes, Younès Bennani, and Frédéric Dufau-Joël. « Mining Customers' Spatio-temporal Behavior Data using Topographic Unsupervised Learning », In Proceedings of the International Conference on Machine Learning and Applications (ICMLA'09), pages 372-377, Miami Beach, Florida, USA, Dec 2009. IEEE Computer Society.
  8. Guénaël Cabanes, Younès Bennani, and Dominique Fresneau. « Mining RFID Behavior Data using Unsupervised Learning », International Journal of Applied Logistics, 1(1):28-47, 2010.
  9. Lazhar Labiod, Nistor Grozavu, and Younès Bennani. « Simultaneous topological categorical data clustering and cluster characterization », International Journal of Computing (IJC), 10(1):9-23, 2011. (Special issue: 5th International conference on Neural Networks and Artificial Intelligence - ICNNAI'2010).

pres

w3c-xhtml