Jorge Garcia Flores

Ingénieur de Recherche CNRS

Je suis ingénieur de recherche CNRS au Laboratoire d'Informatique de Paris Nord de l'Université Sorbonne Paris Nord (USPN). Je travaille sur le développement de méthodes et d'applications de traitement automatique des langues (TAL) et d'intelligence artificielle (IA) pour l'équipe de recherche Représentation de Connaissances et Langage Naturel (RCLN). Plus précisément, mes recherches se concentrent sur deux axes : 1) l’analyse des migrations latino-américaines hautement qualifiées à l’aide de l'apprentissage par renforcement appliqué aux données du web, et 2) la génération de microfictions littéraires avec une méthode basée sur des Transformers.

Je suis responsable de la plate-forme ChêneTAL du LIPN, qui fournit des infrastructures de calcul (telles que des accélérateurs GPU) pour effectuer des expériences en IA et en TAL. Cette plateforme rend service à deux laboratoires de l'USPN (LIPN et L2Ti) ainsi qu'au laboratoire d'excellence Labex EFL. Elle permet de mener des premières expérimentations sur les méthodes d'apprentissage profond pour le TAL, l'intelligence artificielle et le traitement d'images, ainsi que pour affiner le paramétrage des modèles, avant de se lancer dans des expérimentations plus ambitieuses sur des infrastructures de calcul nationales, comme Jean Zay. Je suis aussi responsable du développement du framework logiciel de ChêneTAL, destiné au partage et à la réutilisation de systèmes, de ressources et de démos en TAL développés par l'équipe RCLN.

Enfin, j'ai piloté le développement du site web du LIPN et j'anime l'équipe de développement logiciel (#DevTeamLIPN) du laboratoire. J'encadre aussi d'ingénieur·e·s, de développeur·euse·s, de doctorant·e·s et de stagiaires en informatique pour la conception et l'implémentation de systèmes de TAL et des applications de gestion de la recherche.

Projets

RENFO

Apprentissage par renforcement profond pour la recherche internationale d'experts à partir de résultats de moteurs de recherche sur le web.

Le but du projet est d'utiliser un modèle d'apprentissage profond par renforcement pour l'extraction des données bio-professionnelles d'experts internationaux à partir de résultats de moteurs de recherche web. On suppose que notre méthode pourrait fournir une source de données pour la sociologie de la migration et l'étude de la mobilité des migrations hautement qualifiées.

Financement : Labex EFL (2017-2023) et Ecos Nord (2016-2020)
Budget : ~43k€
Partenaires : LIPN, Télécom-Paristech , IRD, IIMAS/UNAM, CRIM/UNAM

#GenMicFic

Génération de récits à partir d'expériences spatiales d'un robot de service par extraction de connaissances textuelles

Ce projet vise à générer des microfictions (nouvelles de moins de 300 mots) à l'aide de Transformers et de modèles d'apprentissage par renforcement. Nous essayons différentes méthodes pour affiner les modèles linguistiques pré-entraînés existants à l'aide d'un corpus de microfictions en espagnol, français et anglais. Nous évaluons les productions de ces modèles autant par des lecteurs standards que par des spécialistes en littérature. L'objectif du projet est d'améliorer les microfictions générées automatiquement et de renforcer la créativité humaine à l'aide d'outils d'intelligence artificielle.

Financement : Ecos Nord (2022-2025)
Budget : 60k€
Partenaires : LIPN, Tec de Monterrey, IIMAS/UNAM (Mexico)

Publications

GeSERA: General-domain Summary Evaluation by Relevance Analysis: López Espejel, J., de Chalendar, G., Garcia Flores, J.J. (September, 2021) Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2021), 856-867.

Saucissonnage of Long Sequences into a Multi-encoder for Neural Text Summarization with Transformers: López Espejel, J., de Chalendar, G., Garcia Flores, J., Meza Ruiz, I, and Charnois, T. (January, 2021) Extraction et Gestion des Connaissances (EGC), Montpellier, France,, Jan 2021, Montpellier, France.

Apprentissage par renforcement pour la recherche d’experts sur le web: Alizadeh, P. Garcia Flores, J., Meza Ruiz, I. (January, 2020) Extraction et Gestion des Connaissances (EGC’2020), Brussels, Belgium.

Recommendations on automatic document analysis : acquisition, management, exploration: Nedellec, C., Nazarenko, A., [...] Flores, J. [...] and Zweigenbaum, P. (September, 2019) Rapport de recherche : Comité pour la science ouverte , 12p, Paris.

Towards Identifying for Evidence of Brain Drain from Web Search Results using Reinforcement Learning: Murrieta, H., Meza, I., Alizadeh, P. and Garcia Flores, J. (December, 2019) LatinX in AI Research Workshop at the 33rd Conference on Neural Information Processing Systems (NeurIPS 2019) Vancouver, Canada

Robot Experience Stories: first person generation of robotic task narratives in SitLog: Garcia Flores, J., Meza, I., Colin, E., Gardent, C., Gangemi, A. and Pineda, L. (May, 2018) Journal of Intelligent and Fuzzy Systems. 34(5), pp.3291-3300, IOS Press

Voire toutes les publications

Code

Nom	Description	Rôle	URL source	URL prototype
UnoporunO	Fouille sémantique du web à la recherche des migrants hautement qualifiés	chef de projet, développeur	https://github.com/rcln/unoporuno	http://tal.lipn.univ-paris13.fr/unoporuno/
unoporunoDQN	Apprentissage par renforcement pour repérer des données professionnelles des migrants hautement qualifiés	co-chef de projet	https://github.com/rcln/unoporunoDQN
cartographies sonores	Cartographies sonores des langues du monde (projet de valorisation Labex EFL).	project manager	https://github.com/rcln/unoporunoDQN	http://tal.lipn.univ-paris13.fr/cartographies/
BNI	Bibliothèque Numérique des Idées	co-chef de projet	https://github.com/rcln/bni	http://tal.lipn.univ-paris13.fr/bni/
CCTV	Visualization multilingue de topics Wikipédia pour des "thèmes" extraits avec la méthode sampled min-hashing.	chef de projet	https://github.com/rcln/min-hashing	http://tal.lipn.univ-paris13.fr/minhashing/
Golfred	Génération in vitro de récits d'expérience pour des robots de service	chef de projet, co-développeur	https://github.com/rcln/golfred
SOPA-Semeval	Système de calcul de similarité sémantique entre des pairs des phrases basé sur la régression linéaire (tâche SEMEVAL-STS 2013-2015).	co-développeur	https://github.com/rcln/semeval

Enseignement et encadrement

Cours de conduite et gestion de projets dans le master informatique de SupGalilée (USPN)

Cours théorique pour l'UE Conduite est gestion de projets pour les étudiant·es du Master Informatique de SupGalilée.

Josué Urbina and Carl Posthuma (Fac d'Ingénierie, IIMAS, UNAM)

J'ai été le co-encadrant de Josué et Carl pour leurs stages à l'école d'ingénieurs de l'UNAM. Ils ont travaillé sur une méthode basée sur un modèle d'apprentissage par renforcement profond (Deep-Q) pour l'extraction de données d'expert·es à partir de résultats de moteurs de recherche web.

Jessica López Espejel (Thèse, LIPN-USPN)

J'ai été le co-encadrant de Jessica pour son doctorat (2019-2021) sur le résumé automatique pour les longs documents médicaux en utilisant des transformateurs à multi-encodeurs. Elle a également travaillé sur des métriques d'évaluation sémantique pour le résumé automatique basées sur Wikipédia.

Ivan Garrido-Marquez (Thèse, LIPN-USPN)

Ivan a travaillé sur les méthodes d'annotation sémantique en prenant compte des mesures de qualité et la révision dynamique des annotations. Ivan a développé un corpus de 11 millions de mots de blogs français sur la cuisine, le droit et la technologie comme modèle pour mesurer la qualité des annotations, la redondance et l'équilibre des ré-annotations.

Jorge Garcia Flores

Projets

RENFO

Apprentissage par renforcement profond pour la recherche internationale d'experts à partir de résultats de moteurs de recherche sur le web.

#GenMicFic

Génération de récits à partir d'expériences spatiales d'un robot de service par extraction de connaissances textuelles

Publications

GeSERA: General-domain Summary Evaluation by Relevance Analysis

Saucissonnage of Long Sequences into a Multi-encoder for Neural Text Summarization with Transformers

Apprentissage par renforcement pour la recherche d’experts sur le web

Recommendations on automatic document analysis : acquisition, management, exploration

Towards Identifying for Evidence of Brain Drain from Web Search Results using Reinforcement Learning

Robot Experience Stories: first person generation of robotic task narratives in SitLog