Projet accepté pour financement par le comité Ecos Nord (2016-2019)
La localisation des migrants hautement qualifiés est un problème crucial pour les pays émergents. Au delà des méthodes propres à la sociologie de la migration, comme les enquêtes de terrain ou les recensements de la population, une solution attractive est la mise en place des techniques informatiques de fouille sémantique de textes avec le but de cartographier la trajectoire professionnelle des membres de la diaspora des savoirs à partir de documents disponibles sur le web. Cette tâche présente plusieurs défis pour les technologies du langage naturel: la recherche et extraction d'information biographique; la désambiguïsation des noms propres, termes scientifiques et toponymes; le calcul de similarité sémantique entre des fragments courts de texte produits par un moteur de recherche; la classification terminologique par domaine de connaissance ainsi que l'extraction événements. Notre objectif est double: d'un côté il s'agit de produire des cartographies individuelles pour la trajectoire professionnelle (géographique et thématique) des membres de la diaspora des savoirs à partir des sources de données institutionnelles (comme par exemple la base d'ex-boursiers CONACYT); d'un autre côté nous envisageons de permettre la recherche d'experts appartenant à la diaspora hautement qualifiée à partir de mots clés (par exemple: chercher un expert en freinage à courants de Foucault d'origine mexicaine ayant été formé en France). L'expérience conjointe des équipes de recherche composant le consortium offre un large spectre méthodologique pour approfondir la collaboration entre partenaires: Dans un premier temps nous mettrons en place un cadre expérimental avec des données issues de sources institutionnelles (CONACYT, CONICET, COLCIENCIAS) et de projets de recherche en sociologie de la diaspora des savoirs (CIDESAL). Dans un deuxième temps nous étudierons de manière critique les méthodes linguistiques et statistiques les plus aptes à la fouille sémantique des résultats d'un moteur de recherche. Cette étape permettra le classement des résultats par clustering et sa désambiguïsation par WSI (Word Sense Induction) pour en extraire les relations sémantique entre un nom propre, des institutions, des lieux géographiques et des dates constituant une trajectoire professionnelle. Une attention particulière sera donnée à la caractérisation épistémologique du domaine d'expertise en faisant appel à des ontologies des savoirs et à des calculs de proximité sémantique. Cet ensemble impliquera la représentation de relations extraites sous la forme d'un graphes RDF construit par machine reading, d'où la cartographie sera générée. Notre but ultime est d'établir les bases méthodologiques pour une nouvelle génération d'outils de recherche d'experts qui prennent en compte le contexte biographique et géographique propre à chaque personne.
Nom | Diplôme universitaire le plus élevé | Établissement actuel d'affectation | Fonction actuelle et/ou diplôme poursuivi |
---|---|---|---|
Aldo GANGEMI | Doctorat, Roma-Sapienza, 1994 | LIPN/Université Paris 13 | Professeur |
Thierry CHARNOIS | Doctorat, LIPN | LIPN/Université Paris 13 | Professeur |
Davide BUSCALDI | Doctorat, Politécnica de Valencia, 2010 | LIPN/Université Paris 13 | Maître de Conférences |
Jorge GARCIA FLORES | Doctorat, Paris-Sorbonne, 2007 | LIPN/Université Paris 13 | Ingénieur de recherche |
Ehab HASSAN | Master 2, Paris Dauphine,2011 | LIPN/Université Paris 13 | Doctorant |
Dana DIMINESCU | Doctorat | ENST – Télécom ParisTech | Maître de Conférences |
Jean-Baptiste Meyer | Doctorat | Institut de recherche pour le développement (IRD) | Directeur de recherche |
Nom | Diplôme universitaire le plus élevé | Établissement actuel d'affectation | Fonction actuelle et/ou diplôme poursuivi |
---|---|---|---|
Luis A. PINEDA CORTES | Doctorat, University of Edinburgh, 1990 | IIMAS/UNAM | Professeur/Chercheur |
Ivan Vladimir MEZA RUIZ | Doctorat, University of Edinburgh, 2009 | IIMAS/UNAM | Ingénieur de Recherche |
Victor Manuel CORZA VARGAS | Licence, Universidad Nacional Autónoma de México, 2013 | IIMAS/UNAM | Étudiant de Master à l'IIMAS/UNAM |
Fernando LOZANO ASCENCIO | Doctorat, University of Texas | CRIM/UNAM | Professeur/Chercheur |
La localisation des migrants hautement qualifiés est un problème crucial pour les pays émergents. Au-delà des sources des données démographiques, comme les recensements de population, les enquêtes de terrain sur la population active, les sources gouvernementales (base des permis de travail, bases de visas) et les registres de la [OECD, 2002] , une solution attractive est la mise en place des techniques informatiques de fouille sémantique de textes avec le but de cartographier la trajectoire professionnelle des membres de la diaspora des savoirs à partir exclusivement d’information publiée sur le web.
La première application des technologies du langage à la sociologie de la migration a été le système Unoporuno [Garcia-Flores et al. 2012], développé dans le cadre du projet CIDESAL. Ce système permet de classer un des membres potentiels de la diaspora selon son mouvement migratoire : le mouvement linéaire (la personne est partie à l’étranger pour se former et n’est jamais revenue) ; le mouvement circulaire (la personne est revenue à son pays d’origine) et l’absence de mouvement (la personne n’est jamais partie à l’étranger). Il reçoit en entrée une liste des noms en contexte (par exemple, des fiches bibliographiques) et fouille le web pour classer les personnes par apprentissage automatique. Grâce aux membres du consortium CIDESAL, une base de 13000 membres potentielle de la diaspora latino-américaine des savoirs a pu être constituée. Ses membres proviennent des base des publications scientifiques (Web of Science) ainsi que des bases d’anciens boursiers des organismes scientifiques de l’Argentine (CONICET), la Colombie (COLCIENCIAS), l’Uruguay (SNI) et le Mexique (CONACYT). [CIDESAL, 2014]. La principale limite de cette approche est qu’elle ne fait aucune extraction des données, mais se limite au classement automatique par traits sémantiques présents dans les résultats des recherches automatiques sur le web.
Quant à cartographier la diaspora à travers les donnés disponibles sur le web, l’approche phare est le e-Diaspora Atlas, où 8000 sites web produits où fréquentés par les émigrants du monde ont été analysés par 80 chercheurs pour caractériser les interactions propres à chaque diaspora nationale à partir de l’étude des topologies crées par les hyperliens [Diminescu 2008].
Une autre approche de cartographie de la diaspora, le système Name-sor se base sur une étude onomastique de l’origine des noms propres des utilisateurs de Twitter pour cartographier la densité des différentes diasporas nationales sur Twitter [Shokhenmayer 2010].
Les systèmes de recherche d’experts sur le web (expert finding) n’ont jamais été directement appliqués à la recherche des émigrés hautement qualifiés sur le web. En fait, les données biographiques sont peu ou pas de tout considérés par les méthodes de recherche d’expert, qui se concentrent sur la recherche des liens épistémiques entre un expert et son domaine d’expertise. Pourtant les passerelles entre la recherche d’experts et la recherche de personnes sur le web (Web People Search) nous paraissent abondantes et fertiles. La recherche d’experts gagnerait en précision si elle prenait en compte le contexte biographique des experts (pays d’origine, pays de formation, parcours professionnel) et réciproquement le domaine de spécialité (ou toute simplement la profession) serait un trait distinctif pour la désambiguïsation d’homonymes dans la recherche de personnes. Deux approches sortent du lot dans cette famille d’applications : Saffron [Monaghan et al. 2010] et Sig.ma [Tummarello et al. 2010]. Par rapport aux méthodes, Saffron s’appuie sur du TAL pour l’annotation des pages web pertinentes, tandis que Sig.ma exploite les métadonnées sémantiques. Toutes les deux font abondant usage des représentations sémantiques en RDF pour caractériser épistémologiquement le domaine de spécialité des experts.
Les meilleurs résultats rapportés dans la littérature en fouille sémantiques de recherches sur le web ont été obtenus avec la méthode d’induction des sens des mots (Word Sense Induction) [Di Marco & Navigli 2013] qui repose sur des couches de cooccurrence lexicale et l’usage de DBpedia et Babelnet pour la désambiguïsation des entités recherchées. Cette méthode n’a jamais été appliquée à la fouille d’experts sur le web, mais d’autres méthodes de fouille sémantiques l’ont été, sans que ces outils soient encore disponibles. Quant à la découverte des relations sémantiques propres à une trajectoire professionnelle, plusieurs solutions existent dans la littérature, come Text Runner [Yates et al. 2007], un extracteur d’information ouverte capable de parcourir un texte, annoter les parties du discours, les syntagme nominaux et en en extraire un ensemble de couples censés représenter des relations sémantiques. De même, FRED [Gangemi et al. 2014] est un « lecteur automatique » (machine reader) qui est capable d’extraire d’un texte la majeur quantité possible d’information (entités nommées, sens, taxinomies, relations, événements) et de transformer le tout en un graph RDF où les données extraites ont un lien à une sources des données publique comme DBpedia.
L’originalité de notre approche repose sur le fait d’appliquer des méthodes de pointe en TAL, fouille sémantique du web et machine reading au problème bien ancrée dans la réalité : celui de la recherche d’experts appartenant à la diaspora des savoirs. L’apport des résultats escomptés aurait un impacte épistémologique double : en technologies sémantiques il permettrait de produire une nouvelle génération d’outils en recherche d’experts qui prennent en compte le contexte biographique des experts ; en sociologie ils permettraient de produire une nouvelle source des données possible pour l’étude des migrations hautement qualifiés. Au delà de l’objectif particulier de cartographier de façon individuelle la trajectoire géographique et thématique des hautement qualifiés, il serait intéressant de chercher une corrélation statistique entre les experts de notre corpus et les tendances nationales rapportées par les organismes internationaux comme l’OCDE et l’ONU. Ce résultat permettrait de répondre à la question posée par les méthodes numériques : jusqu’à quelle point la réalité sur le web permet de répondre à des questions sur la réalité du terrain ? [Rogers 2010]
Un mot est ici nécessaire sur l’originalité de notre consortium. Le LIPN possède une expertise approfondie en méthodes combinées de traitement automatique des langues et de représentation de connaissances. Cette vocation à produire des représentations sémantiques à partir des annotations textuelles s’est vue renforcé avec l’intégration du système FRED et des méthodes de machine reading aux activités quotidiennes de recherche du labo. Cette expérience en représentation de phrases courtes en langage naturelle sous forme des graphes RDF/OWL, tout en faisant appel à des ressources structurés comme DBPedia comme base de connaissances extralinguistiques, permet d’envisager un traitement sémantique poussé pour les résultats de recherches sur le web considérés comme pertinents dans la trajectoire professionnelle d’une personne. De plus, le labo possède également une bonne connaissance en production massive de requêtes et fouille des résultats des moteurs de recherche, puisque la toute dernière version du système Unoporuno a été produite au sein du LIPN. La participation annuelle de l’équipe à la tâche de similarité sémantique dans la campagne SEMEVAL (où le LIPN et l'IIMAS ont soumis système développé conjointement) permet aussi d’envisage l’intégration aisée des techniques de calcul de proximité sémantique aux méthodes de clustering des résultats. Quant à la pertinence sociologique des cartographies des diasporas des savoirs produites, l’équipe de l’ENST Télécom ParisTech, pionnière dans ce domaine, est incontournable. De son côté, les équipes mexicaine de l'IIIMAS possède une expérience confirmée en classifieurs statistiques, apprentissage automatique et techniques de clustering: des méthodes incontournables dans la production des cartographies à partir des données issues de la fouille du web. En fin, la présence de Jean Baptiste Meyer et de Fernando Lozano Ascencio dans le consortium permettra de valider la pertinence sociologique des résultats d'une recherche interdisciplinaire.
Dans un premier temps on structurera les théories, les concepts et les techniques et les idées autour de l’idée d’une cartographie individuelle d’un expert pour en dégager un état de l’art exhaustif et une évaluation des principales ligne d’action avec le but d’établir un projet faisable dans les délais prévus.
Dans un deuxième temps nous allons développer un code étique et une guide de transparence dans la gestion des données personnelles. Bien que ces données soient toutes extraites de sources publiquement accessibles sur internet, l'usage devra respecter les normes déontologiques les plus élémentaires ainsi que le respect des données personnelles.
Dans un troisième temps il sera nécessaire de concevoir des cadres empiriques pour les hypothèses proposées, notamment en ce qui concerne l’annotation des résultats des moteurs de recherche et l’extraction des relations biographiques permettant de reconstruire une trajectoire professionnelle. On évaluera avec les mesures classiques en traitement automatique des langues : rappel, précision, F-mesure, précision moyenne, exactitude, taux d’erreur, ainsi que des mesures de corrélation entre nos résultats et ceux rapportés dans la littérature.
Dans un quatrième temps on établira une critique des méthodes et techniques développés pour confirmer ou infirmer nos hypothèses à la lumière des résultats empiriques par rapport à la construction des cartographies des experts appartenant à la diaspora hautement qualifiée.
En fin, on évaluera les avantages et les limites des méthodes et techniques développés au cours du projet, ainsi que des extensions possibles à d’autres types de problématiques.
Donc, voici nos trois hypothèses :
%%[%%Aleman-Meza et al. 2007%%]%% Boanerges Aleman-Meza , Uldis Bojars , Harold Boley , John G. Breslin , Malgorzata Mochol , Lyndon Jb Nixon , Axel Polleres , Anna V. Zhdanova. Combining RDF vocabularies for expert finding. In Proceedings of the 4th European Semantic Web Conference (ESWC2007), number 4519 in Lecture Notes in Computer Science, (2007).
%%[%%Banea|et al. 2008%%]%% Carmen Banea, Rada Mihalcea, Janyce Wiebe and Samer Hassan, Multilingual Subjectivity Analysis Using Machine Translation, in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2008), Honolulu, Hawaii, October 2008.
%%[%%CIDESAL,|2014%%]%% CIDESAL : Construction d’Incubateurs des Diasporas du Savoir en Amérique Latine.
Rapport final d’activité. EuroAid/Commission Européenne, 2014 (in press)
%%[%%Bordea & Buitelaar 2012%%]%% Georgeta Bordea, Paul Buitelaar. Expertise Mining. Proceedings of the 21st National Conference on Artificial Intelligence and Cognitive Science, Galway, Ireland, 2010.
%%[%%Di Marco & Navigli 2013%%]%% Antonio Di Marco, Roberto Navigli: Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction. Computational Linguistics 39(3): 709-754 (2013)
%%[%%Diminescu 2008%%]%% Diminescu D. The connected migrant: an epistemological manifesto. Social Science Information (December 2008) vol. 47 no. 4 565-579
%%[%%Etzioni et al. 2006%%]%% Oren Etzioni, Michele Banko and Michael J Cafarella. Machine Reading. AAAI Conference on Artificial Intelligence, 2006.
%%[%%Gangemi et al. 2014%%]%% Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero. Frame-based detection of opinion holders and topics: a model and a tool. IEEE Computational Intelligence, 9(1), 2014
%%[%%Garcia Flores et al. 2012%%]%% J. J. Garcia Flores, Pierre Zwigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, pp. 180-191.
%%[%%Li et al. 2006%%]%% Jie Li, Harold Boley, Virendrakumar C. Bhavsar, and Jing Mei. Expert Finding for eCollaboration Using FOAF with RuleML Rules. Montreal Conference on eTechnologies MCTECH, (May 17, 2006)
%%[%%Monaghan et al. 2010%%]%% Fergal Monaghan, Georgeta Bordea, Krystian Samp, Paul Buitelaar (2010)
Exploring Your Research: Sprinkling some Saffron on Semantic Web Dog Food, 9th International Semantic Web Conference (ISWC), Semantic Web Challenge, Shanghai, China.
%%[%%OECD, 2002%%]%% International Mobility of the Highly Skilled. Policy Brief, OECD, 2002, Paris.
%%[%%Rogers 2010%%]%% Richard Rogers, “Internet Research: The Question of Method,” Journal of Information Technology and Politics 7 (2010): 241-260.
%%[%%Shokhenmayer 2010%%]%% Evgeny Shokhenmayer Cartography in onomastic research / TRANS vol.18; Virtual INST World Conference. CCKS: Cities, Cultures, Knowledge Societies. Section ‘Cartographic Science as a Reflection of Knowledge Societies and Cultures’, 2010
%%[%%Tummarello et al. 2010%%]%% Giovanni Tummarello, Richard Cyganiak, Michele Catasta, Szymon Danielczyk, Renaud Delbru, Stefan Decker “Sig.ma: Live views on the Web of Data”, Journal of Web Semantics: Science, Services and Agents on the World Wide Web - Volume 8, Issue 4, November 2010, Pages 355-364
%%[%%Yates et al. 2007%%]%% Alexander Yates, Michael Cafarella, Michele Banko, Oren Etzioni, Matthew Broadhead, and Stephen Soderland. 2007. TextRunner: open information extraction on the web. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations (NAACL-Demonstrations '07)
Année | Activités | But | |
---|---|---|---|
1 |
| Développer un cadre théorique, méthodologique et technologique d’analyse et d’évaluation de la qualité des données pour le projet. | |
2 |
| Chaine de traitement TAL + Machine reading | |
3 |
| Développer une chaine multilangue, le graphe RDF et les premières cartographies individuelles. | |
4 |
| Cartographies à plus grande échelle. Statistiques a plus grande échelle. | Corrélation web vs terrain |
Année | Actions |
---|---|
1 |
|
2 |
|
3 |
|
4 |
|
TODO
TODO
pz@limsi.fr
(+33) 01 69 85 80 04
LIMSI-CNRS BP 133, F-91403 ORSAY CEDEX
jean-baptiste.meyer@ird.fr
(+33)4 13 55 07 47
Université de Provence, case 10
3, place Victor Hugo
13331 Marseille, cedex 03 France