Apprentissage de modèles topologiques à partir de données massives

Avant de construire un système opérationnel à base d’apprentissage statistique, l’exploration des données représente une phase nécessaire, pendant laquelle les concepteurs d’un système analysent et visualisent les données. Ces données peuvent être multidimensionnelles, issues de sources différentes (bases de données, enquêtes, capteurs, télédétection, etc.). Elles peuvent comporter des composantes mixtes (numériques, binaires, catégorielles), structurées en blocs, présentant des dépendances. Parfois, elles sont imprécises et entachées d’erreurs. C’est pourquoi la phase d’exploration et de visualisation des données est essentielle. Cet axe rassemble à la fois les travaux théoriques de modélisation comme le développement de modèles topologiques évolutifs et des travaux plus appliqués concernant par exemple la formalisation des algorithmes en utilisant le paradigme MapReduce.

Apprentissage topologique à partir de flux de données

Un flux de données est une séquence, potentiellement infinie, de données non stationnaires qui arrivent en continu [RI-24]. Ces flux imposent de nouvelles contraintes, en particulier sur la manière d’accéder aux données ; par exemple, accéder individuellement à chaque donnée dans un ordre aléatoire n’est plus envisageable et il est impossible de toutes les conserver en mémoire. L’algorithme Growing Neural Gas (GNG) [1] est une approche auto-organisatrice incrémentale de la même famille que les cartes auto-organisatrices de Kohonen (SOM). Nous décrivons ci-dessous trois de nos contributions qui étendent GNG au traitement des flux de données.

G-Stream [RI-25, CI-56] est une méthode « séquentielle » de clustering qui permet de découvrir de manière incrémentale des clusters de formes arbitraires en ne faisant qu’une seule passe sur les données. G-Stream utilise une fonction d’oubli afin de réduire l’impact des anciennes données dont la pertinence diminue au fil du temps.

batchStream est un algorithme de clustering de flux de données qui traite les données en micro-batch et qui passe à l’échelle [CI-55]. Il utilise une nouvelle formalisation de la méthode des nuées dynamiques en utilisant le modèle de traitement en micro-batch : la fonction de coût tient compte des sous-ensembles de données qui arrivent par paquets et une pondération est introduite pour pénaliser des données anciennes.

Dans le cadre du projet Square Predict, nous avons validé l’algorithme batchS-tream sur des données d’assurance. Un modèle prédictif combinant le résultat du clustering avec les arbres de décision a été aussi présenté [RI-28]. Le logiciel associé est disponible sur notre plateforme de démonstration [LO-2].

GH-Stream est un algorithme de visualisation et de clustering de flux de données massives. Cette méthode étend l’algorithme G-Stream en lui ajoutant une composante hiérarchique [CI-58] qui permet de décrire l’évolution des flux de données et d’analyser explicitement leur similitude.

Apprentissage non supervisé massif

Toujours dans le cadre de l’apprentissage sur des données massives, nous avons proposé une décomposition d’un algorithme de clustering et biclustering topologique en fonctions élémentaires en utilisant le paradigme MapReduce [3] [CO-29, CI-25, CI-24]. Les logiciels associés sont disponibles sur notre plateforme de démonstration [ LO-2 ].

Nous avons développé une approche originale combinant cartes topologiques et un algorithme de classification hiérarchique biomimétique qui nous a permis d’obtenir des résultats sur le résumé de graphes et la classification hiérarchique incrémentale [RI-7].

Plus précisément en unifiant deux modèles d’apprentissage, celui des cartes topologiques et celui de l’algorithme de classification hiérarchique bioinspirée AntTree, nous avons pu classifier des données simultanément, d’un point de vue topologique et hiérarchique, et ainsi obtenir une partition des données organisées sur une grille 2D avec une organisation hiérarchique sous forme d’arbre au niveau de chaque cellule de la grille. Nous avons proposé l’extension de ce formalisme à la classification et la visualisation de données structurées sous forme de graphe.

En assimilant chaque donnée à un nœud d’un graphe, notre approche permet aussi de décomposer un graphe en une succession de sous-graphes [CI-8, CI-10, CI-17]. Nous avons développé une version incrémentale du modèle hiérarchique où la topologie est libre et la relation de voisinage entre les clusters évolue de manière dynamique en s’inspirant du modèle Neural Gas [CI-58].

Apprentissage par modèles de mélanges à partir de données séquentielles

Nous avons proposé une approche d’apprentissage statistique non supervisé pour modéliser la dynamique d’un ensemble de séquences. En combinant les points forts des cartes topologiques et des modèles de Markov cachés, nous avons défini des modèles de Markov cachés topologiques et auto-organisés, qui s’adaptent à la nature, la structure et la dynamique des séquences. Ces modèles généralisent les chaînes de Markov en introduisant une relation spatio-séquentielle entre les états cachés [RI-14, CI-68]. Ces travaux s’inscrivaient dans le cadre d’un projet CIFRE avec l’INA.