Table des matières

Cartographie de la diaspora des savoirs par fouille sémantique des résultats de recherches sur le web

Cartografía de la diáspora calificada aplicando técnicas de minería semántica a resultados de búsquedas en la web

Projet accepté pour financement par le comité Ecos Nord (2016-2019)

Mots clés

Résumé du projet

La localisation des migrants hautement qualifiés est un problème crucial pour les pays émergents. Au delà des méthodes propres à la sociologie de la migration, comme les enquêtes de terrain ou les recensements de la population, une solution attractive est la mise en place des techniques informatiques de fouille sémantique de textes avec le but de cartographier la trajectoire professionnelle des membres de la diaspora des savoirs à partir de documents disponibles sur le web. Cette tâche présente plusieurs défis pour les technologies du langage naturel: la recherche et extraction d'information biographique; la désambiguïsation des noms propres, termes scientifiques et toponymes; le calcul de similarité sémantique entre des fragments courts de texte produits par un moteur de recherche; la classification terminologique par domaine de connaissance ainsi que l'extraction événements. Notre objectif est double: d'un côté il s'agit de produire des cartographies individuelles pour la trajectoire professionnelle (géographique et thématique) des membres de la diaspora des savoirs à partir des sources de données institutionnelles (comme par exemple la base d'ex-boursiers CONACYT); d'un autre côté nous envisageons de permettre la recherche d'experts appartenant à la diaspora hautement qualifiée à partir de mots clés (par exemple: chercher un expert en freinage à courants de Foucault d'origine mexicaine ayant été formé en France). L'expérience conjointe des équipes de recherche composant le consortium offre un large spectre méthodologique pour approfondir la collaboration entre partenaires: Dans un premier temps nous mettrons en place un cadre expérimental avec des données issues de sources institutionnelles (CONACYT, CONICET, COLCIENCIAS) et de projets de recherche en sociologie de la diaspora des savoirs (CIDESAL). Dans un deuxième temps nous étudierons de manière critique les méthodes linguistiques et statistiques les plus aptes à la fouille sémantique des résultats d'un moteur de recherche. Cette étape permettra le classement des résultats par clustering et sa désambiguïsation par WSI (Word Sense Induction) pour en extraire les relations sémantique entre un nom propre, des institutions, des lieux géographiques et des dates constituant une trajectoire professionnelle. Une attention particulière sera donnée à la caractérisation épistémologique du domaine d'expertise en faisant appel à des ontologies des savoirs et à des calculs de proximité sémantique. Cet ensemble impliquera la représentation de relations extraites sous la forme d'un graphes RDF construit par machine reading, d'où la cartographie sera générée. Notre but ultime est d'établir les bases méthodologiques pour une nouvelle génération d'outils de recherche d'experts qui prennent en compte le contexte biographique et géographique propre à chaque personne.

Consortium

Établissements

En France

Université Paris 13
ENST Télécom Paris

Au Mexique

  1. Universidad Nacional Autónoma de México
    • Instituto de Investigación en Matemáticas Aplicadas y Sistemas (IIMAS)
      • Directeur: Héctor Benitez Pérez
  2. Centro Regional de Investigaciones Multidisciplinarias (CRIM)

Responsables du projet

En France

Au Mexique

Liste de chercheurs participant au projet

En France

Nom Diplôme universitaire le plus élevé Établissement actuel d'affectation Fonction actuelle et/ou diplôme poursuivi
Aldo GANGEMI Doctorat, Roma-Sapienza, 1994 LIPN/Université Paris 13 Professeur
Thierry CHARNOIS Doctorat, LIPN LIPN/Université Paris 13 Professeur
Davide BUSCALDI Doctorat, Politécnica de Valencia, 2010 LIPN/Université Paris 13 Maître de Conférences
Jorge GARCIA FLORES Doctorat, Paris-Sorbonne, 2007 LIPN/Université Paris 13 Ingénieur de recherche
Ehab HASSAN Master 2, Paris Dauphine,2011 LIPN/Université Paris 13 Doctorant
Dana DIMINESCU Doctorat ENST – Télécom ParisTech Maître de Conférences
Jean-Baptiste Meyer Doctorat Institut de recherche pour le développement (IRD) Directeur de recherche

Au Mexique

Nom Diplôme universitaire le plus élevé Établissement actuel d'affectation Fonction actuelle et/ou diplôme poursuivi
Luis A. PINEDA CORTES Doctorat, University of Edinburgh, 1990 IIMAS/UNAM Professeur/Chercheur
Ivan Vladimir MEZA RUIZ Doctorat, University of Edinburgh, 2009 IIMAS/UNAM Ingénieur de Recherche
Victor Manuel CORZA VARGAS Licence, Universidad Nacional Autónoma de México, 2013 IIMAS/UNAM Étudiant de Master à l'IIMAS/UNAM
Fernando LOZANO ASCENCIO Doctorat, University of Texas CRIM/UNAM Professeur/Chercheur

Formation doctorale

Au Mexique

En France

Description détaillée du projet

Identification du sujet et état des connaissances

La localisation des migrants hautement qualifiés est un problème crucial pour les pays émergents. Au-delà des sources des données démographiques, comme les recensements de population, les enquêtes de terrain sur la population active, les sources gouvernementales (base des permis de travail, bases de visas) et les registres de la [OECD, 2002] , une solution attractive est la mise en place des techniques informatiques de fouille sémantique de textes avec le but de cartographier la trajectoire professionnelle des membres de la diaspora des savoirs à partir exclusivement d’information publiée sur le web.

La première application des technologies du langage à la sociologie de la migration a été le système Unoporuno [Garcia-Flores et al. 2012], développé dans le cadre du projet CIDESAL. Ce système permet de classer un des membres potentiels de la diaspora selon son mouvement migratoire : le mouvement linéaire (la personne est partie à l’étranger pour se former et n’est jamais revenue) ; le mouvement circulaire (la personne est revenue à son pays d’origine) et l’absence de mouvement (la personne n’est jamais partie à l’étranger). Il reçoit en entrée une liste des noms en contexte (par exemple, des fiches bibliographiques) et fouille le web pour classer les personnes par apprentissage automatique. Grâce aux membres du consortium CIDESAL, une base de 13000 membres potentielle de la diaspora latino-américaine des savoirs a pu être constituée. Ses membres proviennent des base des publications scientifiques (Web of Science) ainsi que des bases d’anciens boursiers des organismes scientifiques de l’Argentine (CONICET), la Colombie (COLCIENCIAS), l’Uruguay (SNI) et le Mexique (CONACYT). [CIDESAL, 2014]. La principale limite de cette approche est qu’elle ne fait aucune extraction des données, mais se limite au classement automatique par traits sémantiques présents dans les résultats des recherches automatiques sur le web.

Quant à cartographier la diaspora à travers les donnés disponibles sur le web, l’approche phare est le e-Diaspora Atlas, où 8000 sites web produits où fréquentés par les émigrants du monde ont été analysés par 80 chercheurs pour caractériser les interactions propres à chaque diaspora nationale à partir de l’étude des topologies crées par les hyperliens [Diminescu 2008].

Une autre approche de cartographie de la diaspora, le système Name-sor se base sur une étude onomastique de l’origine des noms propres des utilisateurs de Twitter pour cartographier la densité des différentes diasporas nationales sur Twitter [Shokhenmayer 2010].

Les systèmes de recherche d’experts sur le web (expert finding) n’ont jamais été directement appliqués à la recherche des émigrés hautement qualifiés sur le web. En fait, les données biographiques sont peu ou pas de tout considérés par les méthodes de recherche d’expert, qui se concentrent sur la recherche des liens épistémiques entre un expert et son domaine d’expertise. Pourtant les passerelles entre la recherche d’experts et la recherche de personnes sur le web (Web People Search) nous paraissent abondantes et fertiles. La recherche d’experts gagnerait en précision si elle prenait en compte le contexte biographique des experts (pays d’origine, pays de formation, parcours professionnel) et réciproquement le domaine de spécialité (ou toute simplement la profession) serait un trait distinctif pour la désambiguïsation d’homonymes dans la recherche de personnes. Deux approches sortent du lot dans cette famille d’applications : Saffron [Monaghan et al. 2010] et Sig.ma [Tummarello et al. 2010]. Par rapport aux méthodes, Saffron s’appuie sur du TAL pour l’annotation des pages web pertinentes, tandis que Sig.ma exploite les métadonnées sémantiques. Toutes les deux font abondant usage des représentations sémantiques en RDF pour caractériser épistémologiquement le domaine de spécialité des experts.

Les meilleurs résultats rapportés dans la littérature en fouille sémantiques de recherches sur le web ont été obtenus avec la méthode d’induction des sens des mots (Word Sense Induction) [Di Marco & Navigli 2013] qui repose sur des couches de cooccurrence lexicale et l’usage de DBpedia et Babelnet pour la désambiguïsation des entités recherchées. Cette méthode n’a jamais été appliquée à la fouille d’experts sur le web, mais d’autres méthodes de fouille sémantiques l’ont été, sans que ces outils soient encore disponibles. Quant à la découverte des relations sémantiques propres à une trajectoire professionnelle, plusieurs solutions existent dans la littérature, come Text Runner [Yates et al. 2007], un extracteur d’information ouverte capable de parcourir un texte, annoter les parties du discours, les syntagme nominaux et en en extraire un ensemble de couples censés représenter des relations sémantiques. De même, FRED [Gangemi et al. 2014] est un « lecteur automatique » (machine reader) qui est capable d’extraire d’un texte la majeur quantité possible d’information (entités nommées, sens, taxinomies, relations, événements) et de transformer le tout en un graph RDF où les données extraites ont un lien à une sources des données publique comme DBpedia.

Originalité

L’originalité de notre approche repose sur le fait d’appliquer des méthodes de pointe en TAL, fouille sémantique du web et machine reading au problème bien ancrée dans la réalité : celui de la recherche d’experts appartenant à la diaspora des savoirs. L’apport des résultats escomptés aurait un impacte épistémologique double : en technologies sémantiques il permettrait de produire une nouvelle génération d’outils en recherche d’experts qui prennent en compte le contexte biographique des experts ; en sociologie ils permettraient de produire une nouvelle source des données possible pour l’étude des migrations hautement qualifiés. Au delà de l’objectif particulier de cartographier de façon individuelle la trajectoire géographique et thématique des hautement qualifiés, il serait intéressant de chercher une corrélation statistique entre les experts de notre corpus et les tendances nationales rapportées par les organismes internationaux comme l’OCDE et l’ONU. Ce résultat permettrait de répondre à la question posée par les méthodes numériques : jusqu’à quelle point la réalité sur le web permet de répondre à des questions sur la réalité du terrain ? [Rogers 2010]

Un mot est ici nécessaire sur l’originalité de notre consortium. Le LIPN possède une expertise approfondie en méthodes combinées de traitement automatique des langues et de représentation de connaissances. Cette vocation à produire des représentations sémantiques à partir des annotations textuelles s’est vue renforcé avec l’intégration du système FRED et des méthodes de machine reading aux activités quotidiennes de recherche du labo. Cette expérience en représentation de phrases courtes en langage naturelle sous forme des graphes RDF/OWL, tout en faisant appel à des ressources structurés comme DBPedia comme base de connaissances extralinguistiques, permet d’envisager un traitement sémantique poussé pour les résultats de recherches sur le web considérés comme pertinents dans la trajectoire professionnelle d’une personne. De plus, le labo possède également une bonne connaissance en production massive de requêtes et fouille des résultats des moteurs de recherche, puisque la toute dernière version du système Unoporuno a été produite au sein du LIPN. La participation annuelle de l’équipe à la tâche de similarité sémantique dans la campagne SEMEVAL (où le LIPN et l'IIMAS ont soumis système développé conjointement) permet aussi d’envisage l’intégration aisée des techniques de calcul de proximité sémantique aux méthodes de clustering des résultats. Quant à la pertinence sociologique des cartographies des diasporas des savoirs produites, l’équipe de l’ENST Télécom ParisTech, pionnière dans ce domaine, est incontournable. De son côté, les équipes mexicaine de l'IIIMAS possède une expérience confirmée en classifieurs statistiques, apprentissage automatique et techniques de clustering: des méthodes incontournables dans la production des cartographies à partir des données issues de la fouille du web. En fin, la présence de Jean Baptiste Meyer et de Fernando Lozano Ascencio dans le consortium permettra de valider la pertinence sociologique des résultats d'une recherche interdisciplinaire.

Objectifs

  1. Développer des méthodes computationnelles qui permettent de cartographier automatiquement la trajectoire professionnelle des membres la diaspora des savoirs de manière individuelle. De même, cette méthode permettra de retrouver des experts à partir des compétences spécifiques tout en prenant compte du contexte biographique de l’expert (example : trouver un expert en freinage par courants de Foucault d’origine mexicaine et formé en France)
  2. Établir une séquence de traitement automatique des langues et machine reading qui permette de passer d’un texte court à une représentation structurée en RDF en faisant appel à des méthodes d’apprentissage automatique et de clustering par WSI [Di Marco & Navigli 2013]. Cette représentation sera la base pour cartographier la trajectoire des experts.
  3. Agréger les cartographies individuelles pour en dégager des tendances à niveau national et calculer la corrélation statistiques entre les statistiques issues du web et celles publiées par les organismes internationaux comme l’OCDE ou l’ONU.

Objectifs scientifiques

  1. Prendre les corpus et les ressources méthodologiques développés par des projets en sociologie des diasporas hautement qualifiées (en particulier CIDESAL) comme base empirique pour la construction des cartographies individuelles des experts.
  2. Fouilles sémantiquement les contextes sémantiquement riches des noms des personnes (par exemple : un fiche bibliographique où une patente) pour en extraire des organisations, des toponymes et des sujets de recherche ou d’expertise qui puissent être combinés au nom pour générer des requêtes web à caractère biographique pour un moteur de recherche.
  3. Intégrer l’outil de deep machine reading FRED [Etzioni et al. 2006 ; Gangemi et al. 2014] au système de recherche des membres de la diaspora hautement qualifiée Unoporuno [Garcia Flores et al. 2012] pour étendre ses fonctionnalités au cas d’utilisation classique de la recherche d’experts (expert finding) [Bordea & Buitelaar 2012].
  4. Renforcer la découverte des éléments sémantiques dans les résultats des moteurs de recherche par des méthodes d’apprentissage automatique.
  5. Évaluer les cartographies individuelles des experts de la diaspora hautement qualifiée avec le corpus et les méthodes proposés par CIDESAL.
  6. Agréger les trajectoires individuelles dans des statistiques qui permettent, par exemple, de déterminer quelles ont été les principaux pays d’accueil pour la diaspora hautement qualifié du Mexique où le taux d’émigration par domaine d’expertise.
  7. Calculer la corrélation statistique entre nos données issues du web et les chiffre du terrain de l’OCDE et l’ONU.

Objectifs institutionnels

  1. Renforcer la coopération bilatérale entre des groupes scientifiques mexicains et français.
  2. Promouvoir la coopération à plus long terme entre institutions de deux pays.
  3. Entamer une synergie entre les groupes de recherche interdisciplinaire où des chercheurs en TAL et des sociologues travaillent ensemble.
  4. Contribuer à la formation des chercheurs et des doctorants en méthodes de traitement automatique des langues appliquées aux sciences humaines.
  5. Renforcer les programmes d’enseignement au niveau Master et Doctorat au Mexique avec des thèmes de TAL développés tout au long du projet.

Méthodologie

Méthodologie scientifique

Dans un premier temps on structurera les théories, les concepts et les techniques et les idées autour de l’idée d’une cartographie individuelle d’un expert pour en dégager un état de l’art exhaustif et une évaluation des principales ligne d’action avec le but d’établir un projet faisable dans les délais prévus.

Dans un deuxième temps nous allons développer un code étique et une guide de transparence dans la gestion des données personnelles. Bien que ces données soient toutes extraites de sources publiquement accessibles sur internet, l'usage devra respecter les normes déontologiques les plus élémentaires ainsi que le respect des données personnelles.

Dans un troisième temps il sera nécessaire de concevoir des cadres empiriques pour les hypothèses proposées, notamment en ce qui concerne l’annotation des résultats des moteurs de recherche et l’extraction des relations biographiques permettant de reconstruire une trajectoire professionnelle. On évaluera avec les mesures classiques en traitement automatique des langues : rappel, précision, F-mesure, précision moyenne, exactitude, taux d’erreur, ainsi que des mesures de corrélation entre nos résultats et ceux rapportés dans la littérature.

Dans un quatrième temps on établira une critique des méthodes et techniques développés pour confirmer ou infirmer nos hypothèses à la lumière des résultats empiriques par rapport à la construction des cartographies des experts appartenant à la diaspora hautement qualifiée.

En fin, on évaluera les avantages et les limites des méthodes et techniques développés au cours du projet, ainsi que des extensions possibles à d’autres types de problématiques.

Donc, voici nos trois hypothèses :

Méthodologie technologique

  1. Construction d’un socle empirique de tests (testbed) composé d’un échantillon statistiquement significatif des experts appartenant à la diaspora hautement qualifiée
  2. Actualisation de l’outil de recherche des diasporas hautement qualifiées Unoporuno pour l’utiliser comme instrument d’observation des diasporas sur le web.
  3. La sortie actuelle d’Unoporuno sera considérée comme une référence minimale de comparaison (baseline) pour mesurer l’efficacité de la nouvelle approche.
  4. Expériences et évaluation des diverses possibilités méthodologiques et technologiques de chaines de TAL, fouille sémantique et apprentissage automatique pour déceler la chaîne de traitement optimale.
  5. Modélisation du champ épistémologique d’expertise en se basant sur les techniques courantes en recherche d’experts [Aleman-Meza et al. 2007 ; Li et al. 2006]. Expériences et évaluation.
  6. Intégration d’Unoporuno dans la chaîne de transformation d’annotations sémantique en représentations RDF avec FRED. Cette étape représente un défi majeur en traitement multilingue étant donné que FRED traite seulement des textes en langue anglaise et qu’Unoporuno travaille avec des données multilingues propres aux parcours multinationaux des hautement qualifiés. Il faudra envisager alors une étape translinguistique où les analyses en anglais soient « transposées » à l’espagnol, l’allemand et le français [Banea et al. 2008].
  7. Évaluation du processus d’extraction des informations minimales pour reconstruire une trajectoire professionnelle : origine, formation élémentaire, formation spécialisée, domaine d’expertise, événements marquants.
  8. Structuration des données sous forme de graphes RDF
  9. Visualisation cartographique des trajectoires professionnelles avec CytoscapeCartodb6
  10. Agréger les données statistiques pour construire des cartographies à plus grande échelle.
  11. Calculer la corrélation entre les statistiques issues du web et celles issues du terrain (OCDE, ONU)

Références

%%[%%Aleman-Meza et al. 2007%%]%% Boanerges Aleman-Meza , Uldis Bojars , Harold Boley , John G. Breslin , Malgorzata Mochol , Lyndon Jb Nixon , Axel Polleres , Anna V. Zhdanova. Combining RDF vocabularies for expert finding. In Proceedings of the 4th European Semantic Web Conference (ESWC2007), number 4519 in Lecture Notes in Computer Science, (2007).

%%[%%Banea|et al. 2008%%]%% Carmen Banea, Rada Mihalcea, Janyce Wiebe and Samer Hassan, Multilingual Subjectivity Analysis Using Machine Translation, in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2008), Honolulu, Hawaii, October 2008.

%%[%%CIDESAL,|2014%%]%% CIDESAL : Construction d’Incubateurs des Diasporas du Savoir en Amérique Latine.

Rapport final d’activité. EuroAid/Commission Européenne, 2014 (in press)

%%[%%Bordea & Buitelaar 2012%%]%% Georgeta Bordea, Paul Buitelaar. Expertise Mining. Proceedings of the 21st National Conference on Artificial Intelligence and Cognitive Science, Galway, Ireland, 2010.

%%[%%Di Marco & Navigli 2013%%]%% Antonio Di Marco, Roberto Navigli: Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction. Computational Linguistics 39(3): 709-754 (2013)

%%[%%Diminescu 2008%%]%% Diminescu D. The connected migrant: an epistemological manifesto. Social Science Information (December 2008) vol. 47 no. 4 565-579

%%[%%Etzioni et al. 2006%%]%% Oren Etzioni, Michele Banko and Michael J Cafarella. Machine Reading. AAAI Conference on Artificial Intelligence, 2006.

%%[%%Gangemi et al. 2014%%]%% Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero. Frame-based detection of opinion holders and topics: a model and a tool. IEEE Computational Intelligence, 9(1), 2014

%%[%%Garcia Flores et al. 2012%%]%% J. J. Garcia Flores, Pierre Zwigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, pp. 180-191.

%%[%%Li et al. 2006%%]%% Jie Li, Harold Boley, Virendrakumar C. Bhavsar, and Jing Mei. Expert Finding for eCollaboration Using FOAF with RuleML Rules. Montreal Conference on eTechnologies MCTECH, (May 17, 2006)

%%[%%Monaghan et al. 2010%%]%% Fergal Monaghan, Georgeta Bordea, Krystian Samp, Paul Buitelaar (2010)

Exploring Your Research: Sprinkling some Saffron on Semantic Web Dog Food, 9th International Semantic Web Conference (ISWC), Semantic Web Challenge, Shanghai, China.

%%[%%OECD, 2002%%]%% International Mobility of the Highly Skilled. Policy Brief, OECD, 2002, Paris.

%%[%%Rogers 2010%%]%% Richard Rogers, “Internet Research: The Question of Method,” Journal of Information Technology and Politics 7 (2010): 241-260.

%%[%%Shokhenmayer 2010%%]%% Evgeny Shokhenmayer Cartography in onomastic research / TRANS vol.18; Virtual INST World Conference. CCKS: Cities, Cultures, Knowledge Societies. Section ‘Cartographic Science as a Reflection of Knowledge Societies and Cultures’, 2010

%%[%%Tummarello et al. 2010%%]%% Giovanni Tummarello, Richard Cyganiak, Michele Catasta, Szymon Danielczyk, Renaud Delbru, Stefan Decker “Sig.ma: Live views on the Web of Data”, Journal of Web Semantics: Science, Services and Agents on the World Wide Web - Volume 8, Issue 4, November 2010, Pages 355-364

%%[%%Yates et al. 2007%%]%% Alexander Yates, Michael Cafarella, Michele Banko, Oren Etzioni, Matthew Broadhead, and Stephen Soderland. 2007. TextRunner: open information extraction on the web. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations (NAACL-Demonstrations '07)

Calendrier du projet

Année Activités But
1
  • État de l’art
  • Testbed à partir des corpus CIDESAL (Conacyt + Conicet + Colciencias)
  • Actualisation d’Unoporuno
  • Prise en main de FRED
  • Charte éthique pour la manipulation de données biographiques extraites du web
  • Cas d’utilisation
Développer un cadre théorique, méthodologique et technologique d’analyse et d’évaluation de la qualité des données pour le projet.
2
  • Clustering des résultats d’Unoporuno par WSI (Word Sense Induction)
  • Ontologie des savoirs / Vocabulaires / compilation de ressources épistémiques appropriées (lexiques, dictionnaires, thésaurus)
  • Annotation des entités nommées + évaluation * Extraction d’évènements + évaluation
  • Grammaire formelle pour reconnaitre les noms des personnes en espagnol, français, anglais et allemand + évaluation
Chaine de traitement TAL + Machine reading
3
  • Intégration Unoporuno+FRED
  • Crosslingual FRED * Production de RDF + évaluation
  • Premières cartographies individuelles
Développer une chaine multilangue, le graphe RDF et les premières cartographies individuelles.
4
  • Graphes agrégées
  • Statistiques agrégées
  • Correlation entre les données du web et les données du terrain (OCDE)
  • Évaluation
Cartographies à plus grande échelle. Statistiques a plus grande échelle. Corrélation web vs terrain

Actions

Année Actions
1
  • Une mission de 15 jours pour 2 chercheurs mexicains en France.
  • Une mission de 15 jours pour 2 chercheurs français au Mexique
  • Une mission d’un mois pour un doctorant français au Mexique
  • Publication conjointe d’un article de prise de position
2
  • Une mission de 15 jours pour 2 chercheurs mexicains en France.
  • Une mission de 15 jours pour 2 chercheurs français au Mexique
  • Publication conjointe des résultats préliminaires
3
  • Une mission de 15 jours pour 2 chercheurs mexicains en France.
  • Une mission de 15 jours pour 2 chercheurs français au Mexique
  • Publication conjointe des résultats préliminaires
4
  • Une mission de 15 jours pour 2 chercheurs mexicains en France.
  • Une mission de 15 jours pour 2 chercheurs français au Mexique
  • Organisation d’un congrès de présentation des résultats et clôture
  • Participation conjointe dans le jury de thèse du doctorant mexicain financé par CONACYT.
  • Publication conjointe des résultats du projet dans un journal

Résultats escomptés au terme de l'action

  1. Corpus et batterie de tests pour l’extraction des trajectoires professionnelles du web.
  2. Méthode pour cartographier les diasporas des savoirs à partir des données disponibles sur le web.
  3. Outil de production des cartographies individuelles des experts, soit à partir d’un nom d’expert, soit à partir d’un domaine d’expertise et des contraintes biographiques.
  4. Ontologie des savoirs
  5. Publications conjointes des équipes du Mexique et de la France.
  6. Organisation d’un colloque franco-mexicain avec des doctorants et chercheurs intéressés dans la thématique du projet.
  7. Formation de ressources humaines (étudiants et chercheurs) dans la fouille sémantique du web.

Antécédents de coopération

  1. Davide Buscaldi (LIPN), Jorge Garcia Flores (LIPN) et Iván Vladimir Meza (IIMAS) ont participé ensemble dans la campagne d'évaluation sémantique Semeval 2015 (tâche: similarité sémantique), ce qui a donnée lieu à une publication conjointe dans les actes du workshop.
  2. Davide Buscaldi (LIPN) et Iván Vladimir Meza (IIMAS) ont participé conjointement dans la tâche de profilage d'auteur pour la campagne PAN-CLEF 2015 (ce qui donnera lieu a une publication conjointe dans les actes du workshop).
  3. Aldo Gangemi (LIPN), Jorge Garcia Flores (LIPN), Iván Vladimir Meza (IIMAS) et Luis Pineda (IIMAS) ont rédigé ensemble le projet Génération de récits à partir d'expériences spatiales d'un robot de service par extraction de connaissances textuelles, qui vient d'être retenu pour financement dans l'appel Petites initiatives de recherche, d'animation et de transfert (PIRAT 2015) de l'Agence Universitaire pour la Francophonie.
  4. Jorge Garcia Flores (LIPN) et Ivan Vladimir Meza travaillent depuis février 2015 dans le co-encadrement de la recherche de l'étudiant de master Victor Manuel Corza Vargas à l'IIMAS sur le thème Réingénierie d'un système de fouille de données pour tracer la diaspora hautement qualifié sur le web.

Publication des équipes concernées

Équipe française

Aldo Gangemi

Dana Diminescu

Davide Buscaldi

Jorge J. Garcia Flores

Jean Baptiste Meyer

TODO

Thierry Charnois

TODO

Équipe mexicaine

Iván Vladimir Meza R.

Luis A. Pineda C.

Fernando Lozano Ascencio

Suggestion de 2 référés

Pierre Zweigenbaum

pz@limsi.fr
(+33) 01 69 85 80 04
LIMSI-CNRS BP 133, F-91403 ORSAY CEDEX

Jean-Baptiste Meyer

jean-baptiste.meyer@ird.fr
(+33)4 13 55 07 47
Université de Provence, case 10
3, place Victor Hugo
13331 Marseille, cedex 03 France

Liens

ToDo

  1. To confirm the intrest of all the consortium members (DONE)
  2. To finish the french document and start looking for the support letter from BRED
  3. To ask for the mexican and french team CV
  4. To start filling the Conacyt online document
  5. To find an evaluator on sociology (Dominique Bouiller?)