Navigation


 

Liens conseillés

Google
Wikipedia
"Compressed Sensing"
"Machine Learning"
Contacts

Choisis en paroles la vérité (Lao-Tseu).

Il ne dépend que de nous de suivre la route qui monte et dviter celle qui descend (Platon)

Approches multi-vues et multi-sources en apprentissage non-supervisé

Collaborations Y. Bennani, G. Cabanes, N. Grozavu, J. Sublime


Je me suis intéressé depuis 2015 à l’apprentissage non-supervisé et en particulier aux méthodes multi-vues et multisources. En effet, l’étude de données distribuées et pour lesquelles il n’existe peu ou pas d’étiquettes permettant un traitement supervisé est un domaine important de le fouille de données dans lequel les problématiques sont nombreuses. Dans ce contexte, je me suis intéressé en particulier au clustering collaboratif qui est une branche du clustering multivue dans lequel des algorithmes de clustering travaillent ensemble avec des données issues de différentes vues, mais dont l’objectif n’est pas d’aboutir une seule partition globale, mais à des partitions localement améliorées dans toutes les vues via des collaborations mutuelles. S’il existait déjà dans la littérature de nombreuses méthodes permettant de faire collaborer des algorithmes de clustering identiques, l’une de mes contributions  a été de proposer des méthodes permettant à des algorithmes de familles différentes de travailler ensemble. En effet, l’intérêt de pouvoir faire travailler ensemble des méthodes différentes (fonctions de distances locales différentes, nombre de clusters différents, voire modèles différents) est assez évident lorsqu’on est face à des vues très hétérogènes et ne pouvant être toutes traitées de la même façon par le même algorithme (données issues des réseaux sociaux, résultats de moteurs de recherches, données issues d’objets connectées, etc.). La difficulté est alors de trouver comment des algorithmes différents peuvent s’échanger des informations sous un format commun qu’ils comprennent tous. La méthode que j’ai proposée dans ce sens repose sur un modèle permettant de faire collaborer ensemble n’importe quels algorithmes de clustering probabilistes ou ayant une fonction objectif, indépendamment des modèles et des nombres de clusters utilisés dans les vues locales. 



J’ai continué de travailler cette problématiques de collaborations entre algorithmes très différents. En utilisant le principe minimum de complexité, nous avons amené à proposer dans l’utilisation de la complexité de Kolmogorov à machine fixée comme critère d’optimisation universel pour permettre d’optimiser la collaboration entre algorithmes de clustering potentiellement très différents. En essayant de trouver des critères objectifs permettant de pondérer l’influence des différentes vues en fonction de leur potentiel à améliorer ou détériorer le résultat final de la collaboration, je me suis intéressé aux problématiques de qualité des résultats, de capacité à explorer de nouvelles solutions, et de stabilité des partitions issues d’un clustering multi-vue. Les résultats de ces travaux ont permis d’aboutir à la conclusion théorique que l’importance de la diversité reste vraie dans le cadre de méthodes non-supervisées multi-algorithmes, et que faute de pouvoir s’appuyer sur un critère de qualité objectif, c’est la stabilité des solutions de clustering qui devra être favorisée  ce qui encourage ainsi prioritairement les collaborations entre algorithmes trouvant des résultats proches de ceux du reste du groupe.