Apprentissage non supervisé de représentations pour le transfert et la collaboration

Apprentissage non supervisé par transfert

L’apprentissage par transfert consiste à utiliser un jeu de tâches pour influencer l’apprentissage et améliorer les performances sur une autre tâche. Cependant, ce paradigme d’apprentissage peut en réalité gêner les performances si les tâches (sources et cibles) sont trop dissemblables. Un défi est donc de développer des approches qui détectent et évitent le transfert négatif des connaissances utilisant très peu d’informations sur la tâche cible. Nos contributions dans cette direction s’articulent autour de deux dimensions complémentaires : théorique et pratique.

Factorisation matricielle non-négative pour l’adaptation de domaine non supervisée: Nous avons développé une nouvelle méthode [RI-21, CO-32 ] pour l’adaptation de domaine non supervisée qui vise à aligner deux domaines (distributions de probabilités) en utilisant un ensemble commun de vecteurs de base dérivés de vecteurs propres de chaque domaine.

Alignement de noyaux pour l’apprentissage par transfert: Nous avons proposé [CI-64] une approche d’apprentissage par transfert non supervisé qui minimise de manière itérative la distance entre les distributions de probabilités source et cible en optimisant l’alignement des noyaux calculés sur les jeux de données initiaux.

Bornes de généralisation pour l’adaptation de domaine à l’aide des plongements de Hilbert-Schmidt: À partir des résultats pour l’adaptation de domaine comprenant les bornes de généralisation de Vapnik-Chervonenkis et celles issues de la théorie de l’apprentissage de Rademacher, nous avons montré comment on peut obtenir des bornes plus intéressantes en utilisant les plongements de Hilbert-Schmidt [CI-28].

Nous avons ainsi développé un cadre théorique basé sur les plongements Hilbert- Schmidt [CI-29] qui nous a permis d’améliorer les résultats théoriques de l’adaptation au domaine, en introduisant une mesure de distance naturelle et intuitive avec de fortes garanties de calcul pour son estimation. En utilisant l’alignement de noyaux, une contribution théorique et algorithmique pour le problème de « co-clustering » a été proposée dans [CI-85 ].

Apprentissage non supervisé collaboratif

Le clustering collaboratif permet de préserver la confidentialité des données en utilisant d’autres résultats de classification non supervisée, sans avoir recours aux données de ces dernières. À partir d’une collection de bases de données distribuées sur plusieurs sites différents, le problème consiste à partitionner chacune de ces bases en considérant les données locales et les classifications distantes des autres bases collaboratrices, sans partage de données entre les différents centres. Le clustering collaboratif consiste à appliquer les algorithmes de clustering localement sur les différents sites, puis à faire collaborer les sites en partageant les résultats obtenus lors de la phase locale.

Clustering collaboratif basé sur un modèle génératif: Nous avons proposé un clustering collaboratif basé sur les cartes topographiques génératives (GTM : Generative Topographic Mapping) dans [CI-16, CI-7]. Il s’agit d’un modèle génératif non linéaire défini de manière entièrement probabiliste. Cette approche a été validée sur des données artificielles et réelles en utilisant des critères internes et externes.

Clustering collaboratif flou des GTM variationnelles: L’optimisation des paramètres du modèle GTM par l’agorithme Espérance-Maximisation (EM) ne tient pas compte de la complexité du modèle et, par conséquent, le risque de sur-apprentissage des données est élevé. Une solution élégante pour éviter le sur-apprentissage est d’approximer les GTM avec une vision variationnelle. Pour ce faire, nous avons proposé dans [RI-17] un algorithme qui combine VBGTM (Variational Bayesian Generative Topographic Mapping) et FCM (Fuzzy C-Means) pour effectuer la classification non supervisée et la visualisation des données en même temps.

Apprentissage non supervisé collaboratif entre algorithmes différents: Nous avons aussi proposé deux méthodes permettant d’optimiser les liens de collaboration entre les différents algorithmes. La première [CI-42, CI-62, RI-27] propose une optimisation des liens de collaboration sous conditions de Karush-Kuhn-Tucker en maximisant la vraisemblance globale du système d’apprentissage; la seconde [RI-12] se base sur des régressions linéaires effectuées à partir de simulations expérimentales et propose un modèle plus empirique.

Un framework pour l’apprentissage non supervisé collaboratif: Nous avons enfin développé un framework [CI-40] permettant à des algorithmes différents de collaborer ensemble, indépendamment du type d’algorithme ou du nombre de clusters. Ce framework tient compte des caractéristiques locales des algorithmes pendant l’étape collaborative. En plus d’une étude sur la complexité et la convergence [CI-21], nous nous sommes intéressés au critère d’arrêt de notre algorithme et avons choisi un critère mesurant l’évolution de l’entropie globale du système d’apprentissage [RI-27]. La méthode a été testée sur plusieurs jeux de données réelles, en particulier pour la segmentation d’images satellite à très haute résolution dans le cadre du projet ANR CO- CLICO. Les résultats ont été validés avec plusieurs critères internes et externes et ont montré la solidité de notre approche ainsi que son efficacité.

Apprentissage non supervisé profond de représentations hiérarchiques

La recherche internationale est actuellement très active autour de l’étude de méthodes d’apprentissage de représentations latentes par extraction de caractéristiques présentant des niveaux d’abstraction de plus en plus élevés. L’apprentissage profond (Deep Learning) s’est déjà montré très performant dans différents domaines dont la reconnaissance d’image, le traitement du langage et la robotique.

En utilisant le cadre théorique de [CL-7], nous avons proposé dans [ CO-51 ] une première approche d’apprentissage profond basée sur la factorisation matricielle non-négative qui nous a permis d’analyser finement le comportement de ce type d’apprentissage durant la construction de nouvelles représentations hiérarchiques. Ce résultat peut être considéré comme une variante des approches de mise en commun largement utilisées dans les réseaux de neurones profonds. Nous avons observé que pour plusieurs ensembles de données choisis, la parcimonie diminue pendant la procédure d’optimisation à chaque couche. Ce résultat est plutôt surprenant car il était courant de supposer que l’amélioration de la parcimonie des prototypes rend la Multilayer-NMF plus robuste.