Jeudi 8 Octobre


Retour à la vue des calendrier
Jeudi 8 Octobre
Heure: 12:15 - 13:30
Lieu: Salle B107, bâtiment B, Université de Villetaneuse
Résumé: Amélioration de l'apprentissage de forêts d'arbres latents : quelle mesure pour évaluer la qualité de clustering ? Application en bioinformatique.
Description: Christine Sinoquet Au carrefour entre théorie des graphes et théorie des probabilités, nous avons proposé une nouvelle classe de modèles graphiques probabilistes [1]. Ce type de modèle, ou forêt de modèles hiérarchiques à variables latentes (FLTM - Forest of latent tree models) [2], est dédié à la modélisation de données complexes, de grande dimension, et fortement corrélées. Le choix d'une modélisation hiérarchique a facilité la conception d'un algorithme d'apprentissage du modèle qui passe à l'échelle.

L'algorithme d'apprentissage du modèle FLTM repose sur un processus de clustering ascendant hiérarchique. Parmi un ensemble de méthodes de clustering compatibles avec la très grande dimension des données modélisées, le problème est d'identifier la meilleure méthode de clustering et le meilleur paramétrage pour cette dernière.

En préambule, les principes de l'évaluation extrinsèque et de l'évaluation intrinsèque de clustering seront rappelés. Les résultats d'une première étude focalisée sur la comparaison des comportements de quatre critères intrinsèques seront ensuite exposés [3]. Des partitions indépendantes, générées aléatoirement, selon divers protocoles, ont d'abord été comparées. Trois méthodes de clustering ont été considérées. Des couples de partitions (prédite, réelle) ont ensuite été comparées pour ces quatre critères extrinsèques, sur données génétiques. Cependant, la connaissance de la partition réelle n'étant elle-même qu'approchée, une utilisation réaliste doit recourir à un critère intrinsèque. Le choix s'est porté sur deux d'entre eux : le critère de redondance et la différence d'entropies normalisée, spécialement adaptée aux données génétiques. Pour chacune des trois méthodes de clustering utilisées, une deuxième étude s'est donc attachée à comparer les distributions des valeurs de ces deux critères, obtenues pour différents ajustements des paramètres de la méthode de clustering. Les résultats de cette étude seront présentés.

Dans le cas de données génétiques, bien qu'approchée, la connaissance de la partition réelle révèle certaines caractéristiques de la distribution des tailles de clusters. Une troisième étude s'est donc focalisée sur l'amélioration du critère de la différence d'entropies normalisée, afin de prendre en compte ces caractéristiques. Quatre versions de ce critère sont comparées, pour des données génétiques.

Enfin, ces études seront replacées dans le contexte plus vaste d'une campagne de tests intensifs visant la comparaison de trois méthodes alternatives aux GWAS classiques. L'objectif d'une GWAS (genome-wide association study - étude d'association à l'échelle du génome) est d'identifier les facteurs génétiques potentiellement responsables d'un phénotype (e.g. une pathologie génétique). Dans le contexte du projet ANR SAMOGWAS (Specific Advanced MOdels for Genome Wide Association Studies), trois stratégies GWAS sont comparées : l'une exploitant le modèle FLTM [3], l'une utilisant une variante des forêts aléatoires, la troisième combinant les deux approches précédentes. Des résultats préliminaires seront présentés.


[1] R. Mourad, C. Sinoquet and P. Leray (2011) A hierarchical Bayesian network approach for linkage disequilibrium modeling and data-dimensionality reduction prior to genome-wide association studies. BMC Bioinformatics, 12(1), 16, doi:10.1186/1471-2105-12-16.

[2] R. Mourad, C. Sinoquet, N. L. Zhang, T. Liu and P. Leray (2013) A survey on latent tree models and applications. Journal of Artificial Intelligence Research, 47, 157-203.

[3] D.-T. Phan, P. Leray and C. Sinoquet (2015) Latent Forests to Model Genetical Data for the Purpose of Multilocus Genome-wide Association Studies. Which clustering should be chosen? To appear in BIOSTEC2015, Communication in Computer and Information Science, Springer.