5 Octobre - 11 Octobre


Retour à la vue des calendrier
Mardi 6 Octobre
Heure: 12:30 - 13:30
Lieu: Salle B107, bâtiment B, Université de Villetaneuse
Résumé: The Johnson-Lindenstrauss Lemma in Linear and Integer Feasibility
Description: Leo Liberti The Johnson-Lindenstrauss lemma allows dimension reduction on real vectors with low distortion on their pairwise Euclidean distances. This result is often used in algorithms such as $k$-means or $k$ nearest neighbours since they only use Euclidean distances, and has sometimes been used in optimization algorithms involving the minimization of Euclidean distances. In this paper we introduce a first attempt at using this lemma in the context of feasibility problems in linear and integer programming, which cannot be expressed only in function of Euclidean distances.

Leo Liberti, Vu Khac Ky, Pierre-Louis Poirion
CNRS LIX, Ecole Polytechnique, Palaiseau, France
Heure: 14:00 - 17:00
Lieu: Salle B107, bâtiment B, Université de Villetaneuse
Résumé: Calculabilité et pavages
Description: Pascal Vanier Les pavages, ou sous-shifts de type fini sont des ensembles de coloriages du plan vérifiant des contraintes locales en nombre fini. Nous nous intéresserons en particulier au problèmes d'isomorphisme entre sous-shifts, connu sous le nom de conjugaison et plus particulièrement aux invariants de conjugaison, qui sont des "objets" permettant de caractériser certains aspects des sous-shifts. Nous donnerons en particulier des caractérisations calculatoires de ces derniers qui permettront de voir les liens intimes qui lient pavages et classes de complexité/calculabilité.
Jeudi 8 Octobre
Heure: 12:15 - 13:30
Lieu: Salle B107, bâtiment B, Université de Villetaneuse
Résumé: Amélioration de l'apprentissage de forêts d'arbres latents : quelle mesure pour évaluer la qualité de clustering ? Application en bioinformatique.
Description: Christine Sinoquet Au carrefour entre théorie des graphes et théorie des probabilités, nous avons proposé une nouvelle classe de modèles graphiques probabilistes [1]. Ce type de modèle, ou forêt de modèles hiérarchiques à variables latentes (FLTM - Forest of latent tree models) [2], est dédié à la modélisation de données complexes, de grande dimension, et fortement corrélées. Le choix d'une modélisation hiérarchique a facilité la conception d'un algorithme d'apprentissage du modèle qui passe à l'échelle.

L'algorithme d'apprentissage du modèle FLTM repose sur un processus de clustering ascendant hiérarchique. Parmi un ensemble de méthodes de clustering compatibles avec la très grande dimension des données modélisées, le problème est d'identifier la meilleure méthode de clustering et le meilleur paramétrage pour cette dernière.

En préambule, les principes de l'évaluation extrinsèque et de l'évaluation intrinsèque de clustering seront rappelés. Les résultats d'une première étude focalisée sur la comparaison des comportements de quatre critères intrinsèques seront ensuite exposés [3]. Des partitions indépendantes, générées aléatoirement, selon divers protocoles, ont d'abord été comparées. Trois méthodes de clustering ont été considérées. Des couples de partitions (prédite, réelle) ont ensuite été comparées pour ces quatre critères extrinsèques, sur données génétiques. Cependant, la connaissance de la partition réelle n'étant elle-même qu'approchée, une utilisation réaliste doit recourir à un critère intrinsèque. Le choix s'est porté sur deux d'entre eux : le critère de redondance et la différence d'entropies normalisée, spécialement adaptée aux données génétiques. Pour chacune des trois méthodes de clustering utilisées, une deuxième étude s'est donc attachée à comparer les distributions des valeurs de ces deux critères, obtenues pour différents ajustements des paramètres de la méthode de clustering. Les résultats de cette étude seront présentés.

Dans le cas de données génétiques, bien qu'approchée, la connaissance de la partition réelle révèle certaines caractéristiques de la distribution des tailles de clusters. Une troisième étude s'est donc focalisée sur l'amélioration du critère de la différence d'entropies normalisée, afin de prendre en compte ces caractéristiques. Quatre versions de ce critère sont comparées, pour des données génétiques.

Enfin, ces études seront replacées dans le contexte plus vaste d'une campagne de tests intensifs visant la comparaison de trois méthodes alternatives aux GWAS classiques. L'objectif d'une GWAS (genome-wide association study - étude d'association à l'échelle du génome) est d'identifier les facteurs génétiques potentiellement responsables d'un phénotype (e.g. une pathologie génétique). Dans le contexte du projet ANR SAMOGWAS (Specific Advanced MOdels for Genome Wide Association Studies), trois stratégies GWAS sont comparées : l'une exploitant le modèle FLTM [3], l'une utilisant une variante des forêts aléatoires, la troisième combinant les deux approches précédentes. Des résultats préliminaires seront présentés.


[1] R. Mourad, C. Sinoquet and P. Leray (2011) A hierarchical Bayesian network approach for linkage disequilibrium modeling and data-dimensionality reduction prior to genome-wide association studies. BMC Bioinformatics, 12(1), 16, doi:10.1186/1471-2105-12-16.

[2] R. Mourad, C. Sinoquet, N. L. Zhang, T. Liu and P. Leray (2013) A survey on latent tree models and applications. Journal of Artificial Intelligence Research, 47, 157-203.

[3] D.-T. Phan, P. Leray and C. Sinoquet (2015) Latent Forests to Model Genetical Data for the Purpose of Multilocus Genome-wide Association Studies. Which clustering should be chosen? To appear in BIOSTEC2015, Communication in Computer and Information Science, Springer.
Vendredi 9 Octobre
Heure: 12:45 - 15:30
Lieu: Salle B107, bâtiment B, Université de Villetaneuse
Résumé: Tenseurs aléatoires (soutenance de thèse)
Description: Stéphane Dartois During this defense I present pieces of the work I achieved on random tensor models (tensor models for short). I will define colored triangulations and then review their combinatorics. After this is done I show how one can write integral representation of their generating series. These representations are called tensor models. Using this representation I will describe the combinatorial 1/N expansion for two different kinds of models generating specific classes of colored and non-colored combinatorial maps. I will then concentrate on a specific model, that is the simpler non trivial tensor model and explore some of its properties. In particula r I review the properties of its double scaling limit, then using its Hubbard-Stratanovitch representation, I show how one can use matrix models techniques to recover results obtained using combinatorial techniques. I will finally present several results that point towards integrable structures in the framework of random tensor models.