Cartographie de la diaspora des savoirs par fouille sémantique des résultats de recherches sur le web

De wikiRcln
Aller à : navigation, rechercher

Cartografía de la diáspora calificada aplicando técnicas de minería semántica a resultados de búsquedas en la web

Projet accepté pour financement par le comité Ecos Nord (2016-2019)


Mots clés

Résumé du projet

La localisation des migrants hautement qualifiés est un problème crucial pour les pays émergents. Au delà des méthodes propres à la sociologie de la migration, comme les enquêtes de terrain ou les recensements de la population, une solution attractive est la mise en place des techniques informatiques de fouille sémantique de textes avec le but de cartographier la trajectoire professionnelle des membres de la diaspora des savoirs à partir de documents disponibles sur le web. Cette tâche présente plusieurs défis pour les technologies du langage naturel: la recherche et extraction d'information biographique; la désambiguïsation des noms propres, termes scientifiques et toponymes; le calcul de similarité sémantique entre des fragments courts de texte produits par un moteur de recherche; la classification terminologique par domaine de connaissance ainsi que l'extraction événements. Notre objectif est double: d'un côté il s'agit de produire des cartographies individuelles pour la trajectoire professionnelle (géographique et thématique) des membres de la diaspora des savoirs à partir des sources de données institutionnelles (comme par exemple la base d'ex-boursiers CONACYT); d'un autre côté nous envisageons de permettre la recherche d'experts appartenant à la diaspora hautement qualifiée à partir de mots clés (par exemple: chercher un expert en freinage à courants de Foucault d'origine mexicaine ayant été formé en France). L'expérience conjointe des équipes de recherche composant le consortium offre un large spectre méthodologique pour approfondir la collaboration entre partenaires: Dans un premier temps nous mettrons en place un cadre expérimental avec des données issues de sources institutionnelles (CONACYT, CONICET, COLCIENCIAS) et de projets de recherche en sociologie de la diaspora des savoirs (CIDESAL). Dans un deuxième temps nous étudierons de manière critique les méthodes linguistiques et statistiques les plus aptes à la fouille sémantique des résultats d'un moteur de recherche. Cette étape permettra le classement des résultats par clustering et sa désambiguïsation par WSI (Word Sense Induction) pour en extraire les relations sémantique entre un nom propre, des institutions, des lieux géographiques et des dates constituant une trajectoire professionnelle. Une attention particulière sera donnée à la caractérisation épistémologique du domaine d'expertise en faisant appel à des ontologies des savoirs et à des calculs de proximité sémantique. Cet ensemble impliquera la représentation de relations extraites sous la forme d'un graphes RDF construit par machine reading, d'où la cartographie sera générée. Notre but ultime est d'établir les bases méthodologiques pour une nouvelle génération d'outils de recherche d'experts qui prennent en compte le contexte biographique et géographique propre à chaque personne.

Consortium

Établissements

En France

Université Paris 13
  • Laboratoire d'Informatique de Paris Nord
  • UMR 7030 CNRS
  • Directeur: Laure Petrucci
ENST Télécom Paris
  • Nom du labo
  • Nom du directeur

Au Mexique

  1. Universidad Nacional Autónoma de México
    • Instituto de Investigación en Matemáticas Aplicadas y Sistemas (IIMAS)
      • Directeur: Héctor Benitez Pérez
  2. Centro Regional de Investigaciones Multidisciplinarias (CRIM)

Responsables du projet

En France

  • Aldo Gangemi, Professeur
  • Institut Galilée - Université Paris-Nord, 99, avenue Jean-Baptiste Clément, 93430 Villetaneuse

Au Mexique

  • Luis A. Pineda Cortés, Professeur

Liste de chercheurs participant au projet

En France

Nom Diplôme universitaire le plus élevé Établissement actuel d'affectation Fonction actuelle et/ou diplôme poursuivi
Aldo GANGEMI Doctorat, Roma-Sapienza,

1994

LIPN/Université Paris 13 Professeur
Thierry CHARNOIS Doctorat, LIPN LIPN/Université Paris 13 Professeur
Davide BUSCALDI Doctorat, Politécnica de Valencia,

2010

LIPN/Université Paris 13 Maître de Conférences
Jorge GARCIA FLORES Doctorat, Paris-Sorbonne, 2007 LIPN/Université Paris 13 Ingénieur de recherche
Ehab HASSAN Master 2, Paris Dauphine,2011 LIPN/Université Paris 13 Doctorant
Dana DIMINESCU Doctorat ENST – Télécom ParisTech Maître de Conférences
Jean-Baptiste Meyer Doctorat Institut de recherche pour le développement (IRD) Directeur de recherche

Au Mexique

Nom Diplôme universitaire le plus élevé Établissement actuel d'affectation Fonction actuelle et/ou diplôme poursuivi
Luis A. PINEDA CORTES Doctorat, University of Edinburgh, 1990 IIMAS/UNAM Professeur/Chercheur
Ivan Vladimir MEZA RUIZ Doctorat, University of Edinburgh, 2009 IIMAS/UNAM Ingénieur de Recherche
Victor Manuel CORZA VARGAS Licence, Universidad Nacional Autónoma de México, 2013 IIMAS/UNAM Étudiant de Master à l'IIMAS/UNAM
Fernando LOZANO ASCENCIO Doctorat, University of Texas CRIM/UNAM Professeur/Chercheur

Formation doctorale

Au Mexique

  • Nous sommes à la recherche d'un doctorant mexicain apte à partir en France avec une bourse Conacyt dans le cadre de notre projet (appel ici)

En France

  • Ehab Hassan (boursier doctoral)

Description détaillée du projet

Identification du sujet et état des connaissances

La localisation des migrants hautement qualifiés est un problème crucial pour les pays émergents. Au-delà des sources des données démographiques, comme les recensements de population, les enquêtes de terrain sur la population active, les sources gouvernementales (base des permis de travail, bases de visas) et les registres de la [OECD, 2002] , une solution attractive est la mise en place des techniques informatiques de fouille sémantique de textes avec le but de cartographier la trajectoire professionnelle des membres de la diaspora des savoirs à partir exclusivement d’information publiée sur le web.

La première application des technologies du langage à la sociologie de la migration a été le système Unoporuno [Garcia-Flores et al. 2012], développé dans le cadre du projet CIDESAL. Ce système permet de classer un des membres potentiels de la diaspora selon son mouvement migratoire : le mouvement linéaire (la personne est partie à l’étranger pour se former et n’est jamais revenue) ; le mouvement circulaire (la personne est revenue à son pays d’origine) et l’absence de mouvement (la personne n’est jamais partie à l’étranger). Il reçoit en entrée une liste des noms en contexte (par exemple, des fiches bibliographiques) et fouille le web pour classer les personnes par apprentissage automatique. Grâce aux membres du consortium CIDESAL, une base de 13000 membres potentielle de la diaspora latino-américaine des savoirs a pu être constituée. Ses membres proviennent des base des publications scientifiques (Web of Science) ainsi que des bases d’anciens boursiers des organismes scientifiques de l’Argentine (CONICET), la Colombie (COLCIENCIAS), l’Uruguay (SNI) et le Mexique (CONACYT). [CIDESAL, 2014]. La principale limite de cette approche est qu’elle ne fait aucune extraction des données, mais se limite au classement automatique par traits sémantiques présents dans les résultats des recherches automatiques sur le web.

Quant à cartographier la diaspora à travers les donnés disponibles sur le web, l’approche phare est le e-Diaspora Atlas, où 8000 sites web produits où fréquentés par les émigrants du monde ont été analysés par 80 chercheurs pour caractériser les interactions propres à chaque diaspora nationale à partir de l’étude des topologies crées par les hyperliens [Diminescu 2008].

Une autre approche de cartographie de la diaspora, le système Name-sor se base sur une étude onomastique de l’origine des noms propres des utilisateurs de Twitter pour cartographier la densité des différentes diasporas nationales sur Twitter [Shokhenmayer 2010].

Les systèmes de recherche d’experts sur le web (expert finding) n’ont jamais été directement appliqués à la recherche des émigrés hautement qualifiés sur le web. En fait, les données biographiques sont peu ou pas de tout considérés par les méthodes de recherche d’expert, qui se concentrent sur la recherche des liens épistémiques entre un expert et son domaine d’expertise. Pourtant les passerelles entre la recherche d’experts et la recherche de personnes sur le web (Web People Search) nous paraissent abondantes et fertiles. La recherche d’experts gagnerait en précision si elle prenait en compte le contexte biographique des experts (pays d’origine, pays de formation, parcours professionnel) et réciproquement le domaine de spécialité (ou toute simplement la profession) serait un trait distinctif pour la désambiguïsation d’homonymes dans la recherche de personnes. Deux approches sortent du lot dans cette famille d’applications : Saffron [Monaghan et al. 2010] et Sig.ma [Tummarello et al. 2010]. Par rapport aux méthodes, Saffron s’appuie sur du TAL pour l’annotation des pages web pertinentes, tandis que Sig.ma exploite les métadonnées sémantiques. Toutes les deux font abondant usage des représentations sémantiques en RDF pour caractériser épistémologiquement le domaine de spécialité des experts.

Les meilleurs résultats rapportés dans la littérature en fouille sémantiques de recherches sur le web ont été obtenus avec la méthode d’induction des sens des mots (Word Sense Induction) [Di Marco & Navigli 2013] qui repose sur des couches de cooccurrence lexicale et l’usage de DBpedia et Babelnet pour la désambiguïsation des entités recherchées. Cette méthode n’a jamais été appliquée à la fouille d’experts sur le web, mais d’autres méthodes de fouille sémantiques l’ont été, sans que ces outils soient encore disponibles. Quant à la découverte des relations sémantiques propres à une trajectoire professionnelle, plusieurs solutions existent dans la littérature, come Text Runner [Yates et al. 2007], un extracteur d’information ouverte capable de parcourir un texte, annoter les parties du discours, les syntagme nominaux et en en extraire un ensemble de couples censés représenter des relations sémantiques. De même, FRED [Gangemi et al. 2014] est un « lecteur automatique » (machine reader) qui est capable d’extraire d’un texte la majeur quantité possible d’information (entités nommées, sens, taxinomies, relations, événements) et de transformer le tout en un graph RDF où les données extraites ont un lien à une sources des données publique comme DBpedia.

Originalité

L’originalité de notre approche repose sur le fait d’appliquer des méthodes de pointe en TAL, fouille sémantique du web et machine reading au problème bien ancrée dans la réalité : celui de la recherche d’experts appartenant à la diaspora des savoirs. L’apport des résultats escomptés aurait un impacte épistémologique double : en technologies sémantiques il permettrait de produire une nouvelle génération d’outils en recherche d’experts qui prennent en compte le contexte biographique des experts ; en sociologie ils permettraient de produire une nouvelle source des données possible pour l’étude des migrations hautement qualifiés. Au delà de l’objectif particulier de cartographier de façon individuelle la trajectoire géographique et thématique des hautement qualifiés, il serait intéressant de chercher une corrélation statistique entre les experts de notre corpus et les tendances nationales rapportées par les organismes internationaux comme l’OCDE et l’ONU. Ce résultat permettrait de répondre à la question posée par les méthodes numériques : jusqu’à quelle point la réalité sur le web permet de répondre à des questions sur la réalité du terrain ? [Rogers 2010]

Un mot est ici nécessaire sur l’originalité de notre consortium. Le LIPN possède une expertise approfondie en méthodes combinées de traitement automatique des langues et de représentation de connaissances. Cette vocation à produire des représentations sémantiques à partir des annotations textuelles s’est vue renforcé avec l’intégration du système FRED et des méthodes de machine reading aux activités quotidiennes de recherche du labo. Cette expérience en représentation de phrases courtes en langage naturelle sous forme des graphes RDF/OWL, tout en faisant appel à des ressources structurés comme DBPedia comme base de connaissances extralinguistiques, permet d’envisager un traitement sémantique poussé pour les résultats de recherches sur le web considérés comme pertinents dans la trajectoire professionnelle d’une personne. De plus, le labo possède également une bonne connaissance en production massive de requêtes et fouille des résultats des moteurs de recherche, puisque la toute dernière version du système Unoporuno a été produite au sein du LIPN. La participation annuelle de l’équipe à la tâche de similarité sémantique dans la campagne SEMEVAL (où le LIPN et l'IIMAS ont soumis système développé conjointement) permet aussi d’envisage l’intégration aisée des techniques de calcul de proximité sémantique aux méthodes de clustering des résultats. Quant à la pertinence sociologique des cartographies des diasporas des savoirs produites, l’équipe de l’ENST Télécom ParisTech, pionnière dans ce domaine, est incontournable. De son côté, les équipes mexicaine de l'IIIMAS possède une expérience confirmée en classifieurs statistiques, apprentissage automatique et techniques de clustering: des méthodes incontournables dans la production des cartographies à partir des données issues de la fouille du web. En fin, la présence de Jean Baptiste Meyer et de Fernando Lozano Ascencio dans le consortium permettra de valider la pertinence sociologique des résultats d'une recherche interdisciplinaire.

Objectifs

  1. Développer des méthodes computationnelles qui permettent de cartographier automatiquement la trajectoire professionnelle des membres la diaspora des savoirs de manière individuelle. De même, cette méthode permettra de retrouver des experts à partir des compétences spécifiques tout en prenant compte du contexte biographique de l’expert (example : trouver un expert en freinage par courants de Foucault d’origine mexicaine et formé en France)
  2. Établir une séquence de traitement automatique des langues et machine reading qui permette de passer d’un texte court à une représentation structurée en RDF en faisant appel à des méthodes d’apprentissage automatique et de clustering par WSI [Di Marco & Navigli 2013]. Cette représentation sera la base pour cartographier la trajectoire des experts.
  3. Agréger les cartographies individuelles pour en dégager des tendances à niveau national et calculer la corrélation statistiques entre les statistiques issues du web et celles publiées par les organismes internationaux comme l’OCDE ou l’ONU.

Objectifs scientifiques

  1. Prendre les corpus et les ressources méthodologiques développés par des projets en sociologie des diasporas hautement qualifiées (en particulier CIDESAL) comme base empirique pour la construction des cartographies individuelles des experts.
  2. Fouilles sémantiquement les contextes sémantiquement riches des noms des personnes (par exemple : un fiche bibliographique où une patente) pour en extraire des organisations, des toponymes et des sujets de recherche ou d’expertise qui puissent être combinés au nom pour générer des requêtes web à caractère biographique pour un moteur de recherche.
  3. Intégrer l’outil de deep machine reading FRED [Etzioni et al. 2006 ; Gangemi et al. 2014] au système de recherche des membres de la diaspora hautement qualifiée Unoporuno [Garcia Flores et al. 2012] pour étendre ses fonctionnalités au cas d’utilisation classique de la recherche d’experts (expert finding) [Bordea & Buitelaar 2012].
  4. Renforcer la découverte des éléments sémantiques dans les résultats des moteurs de recherche par des méthodes d’apprentissage automatique.
  5. Évaluer les cartographies individuelles des experts de la diaspora hautement qualifiée avec le corpus et les méthodes proposés par CIDESAL.
  6. Agréger les trajectoires individuelles dans des statistiques qui permettent, par exemple, de déterminer quelles ont été les principaux pays d’accueil pour la diaspora hautement qualifié du Mexique où le taux d’émigration par domaine d’expertise.
  7. Calculer la corrélation statistique entre nos données issues du web et les chiffre du terrain de l’OCDE et l’ONU.

Objectifs institutionnels

  1. Renforcer la coopération bilatérale entre des groupes scientifiques mexicains et français.
  2. Promouvoir la coopération à plus long terme entre institutions de deux pays.
  3. Entamer une synergie entre les groupes de recherche interdisciplinaire où des chercheurs en TAL et des sociologues travaillent ensemble.
  4. Contribuer à la formation des chercheurs et des doctorants en méthodes de traitement automatique des langues appliquées aux sciences humaines.
  5. Renforcer les programmes d’enseignement au niveau Master et Doctorat au Mexique avec des thèmes de TAL développés tout au long du projet.

Méthodologie

Méthodologie scientifique

Dans un premier temps on structurera les théories, les concepts et les techniques et les idées autour de l’idée d’une cartographie individuelle d’un expert pour en dégager un état de l’art exhaustif et une évaluation des principales ligne d’action avec le but d’établir un projet faisable dans les délais prévus.

Dans un deuxième temps nous allons développer un code étique et une guide de transparence dans la gestion des données personnelles. Bien que ces données soient toutes extraites de sources publiquement accessibles sur internet, l'usage devra respecter les normes déontologiques les plus élémentaires ainsi que le respect des données personnelles.

Dans un troisième temps il sera nécessaire de concevoir des cadres empiriques pour les hypothèses proposées, notamment en ce qui concerne l’annotation des résultats des moteurs de recherche et l’extraction des relations biographiques permettant de reconstruire une trajectoire professionnelle. On évaluera avec les mesures classiques en traitement automatique des langues : rappel, précision, F-mesure, précision moyenne, exactitude, taux d’erreur, ainsi que des mesures de corrélation entre nos résultats et ceux rapportés dans la littérature.

Dans un quatrième temps on établira une critique des méthodes et techniques développés pour confirmer ou infirmer nos hypothèses à la lumière des résultats empiriques par rapport à la construction des cartographies des experts appartenant à la diaspora hautement qualifiée.

En fin, on évaluera les avantages et les limites des méthodes et techniques développés au cours du projet, ainsi que des extensions possibles à d’autres types de problématiques.

Donc, voici nos trois hypothèses :

  1. Il est possible d’établir une cartographie de la trajectoire épistémique d’un expert ainsi que de sa mobilité professionnelle et géographique à partir de l’analyse des données (non structurées, quasi-structurées et structurées) publiées sur le web.
  2. Le modèle de cartographie de la diaspora hautement qualifiée ici proposé est applicable au problème de la recherche d’experts, c’est-à-dire, à la construction d’une liste de noms d’experts à partir de certaines aptitudes et compétences recherchées.
  3. Il existe une corrélation entre les statistiques de mobilité des hautement qualifiés calculées exclusivement à partir des données extraites du web et celles rapportées par les organismes internationaux tels que l’OCDE et l’ONU.

Méthodologie technologique

  1. Construction d’un socle empirique de tests (testbed) composé d’un échantillon statistiquement significatif des experts appartenant à la diaspora hautement qualifiée
  2. Actualisation de l’outil de recherche des diasporas hautement qualifiées Unoporuno pour l’utiliser comme instrument d’observation des diasporas sur le web.
  3. La sortie actuelle d’Unoporuno sera considérée comme une référence minimale de comparaison (baseline) pour mesurer l’efficacité de la nouvelle approche.
  4. Expériences et évaluation des diverses possibilités méthodologiques et technologiques de chaines de TAL, fouille sémantique et apprentissage automatique pour déceler la chaîne de traitement optimale.
  5. Modélisation du champ épistémologique d’expertise en se basant sur les techniques courantes en recherche d’experts [Aleman-Meza et al. 2007 ; Li et al. 2006]. Expériences et évaluation.
  6. Intégration d’Unoporuno dans la chaîne de transformation d’annotations sémantique en représentations RDF avec FRED. Cette étape représente un défi majeur en traitement multilingue étant donné que FRED traite seulement des textes en langue anglaise et qu’Unoporuno travaille avec des données multilingues propres aux parcours multinationaux des hautement qualifiés. Il faudra envisager alors une étape translinguistique où les analyses en anglais soient « transposées » à l’espagnol, l’allemand et le français [Banea et al. 2008].
  7. Évaluation du processus d’extraction des informations minimales pour reconstruire une trajectoire professionnelle : origine, formation élémentaire, formation spécialisée, domaine d’expertise, événements marquants.
  8. Structuration des données sous forme de graphes RDF
  9. Visualisation cartographique des trajectoires professionnelles avec CytoscapeCartodb6
  10. Agréger les données statistiques pour construire des cartographies à plus grande échelle.
  11. Calculer la corrélation entre les statistiques issues du web et celles issues du terrain (OCDE, ONU)

Références

[Aleman-Meza et al. 2007] Boanerges Aleman-Meza , Uldis Bojars , Harold Boley , John G. Breslin , Malgorzata Mochol , Lyndon Jb Nixon , Axel Polleres , Anna V. Zhdanova. Combining RDF vocabularies for expert finding. In Proceedings of the 4th European Semantic Web Conference (ESWC2007), number 4519 in Lecture Notes in Computer Science, (2007).

[Banea et al. 2008] Carmen Banea, Rada Mihalcea, Janyce Wiebe and Samer Hassan, Multilingual Subjectivity Analysis Using Machine Translation, in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2008), Honolulu, Hawaii, October 2008.

[CIDESAL, 2014] CIDESAL : Construction d’Incubateurs des Diasporas du Savoir en Amérique Latine.

Rapport final d’activité. EuroAid/Commission Européenne, 2014 (in press)

[Bordea & Buitelaar 2012] Georgeta Bordea, Paul Buitelaar. Expertise Mining. Proceedings of the 21st National Conference on Artificial Intelligence and Cognitive Science, Galway, Ireland, 2010.

[Di Marco & Navigli 2013] Antonio Di Marco, Roberto Navigli: Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction. Computational Linguistics 39(3): 709-754 (2013)

[Diminescu 2008] Diminescu D. The connected migrant: an epistemological manifesto. Social Science Information (December 2008) vol. 47 no. 4 565-579

[Etzioni et al. 2006] Oren Etzioni, Michele Banko and Michael J Cafarella. Machine Reading. AAAI Conference on Artificial Intelligence, 2006.

[Gangemi et al. 2014] Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero. Frame-based detection of opinion holders and topics: a model and a tool. IEEE Computational Intelligence, 9(1), 2014

[Garcia Flores et al. 2012] J. J. Garcia Flores, Pierre Zwigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, pp. 180-191.

[Li et al. 2006] Jie Li, Harold Boley, Virendrakumar C. Bhavsar, and Jing Mei. Expert Finding for eCollaboration Using FOAF with RuleML Rules. Montreal Conference on eTechnologies MCTECH, (May 17, 2006)

[Monaghan et al. 2010] Fergal Monaghan, Georgeta Bordea, Krystian Samp, Paul Buitelaar (2010)

Exploring Your Research: Sprinkling some Saffron on Semantic Web Dog Food, 9th International Semantic Web Conference (ISWC), Semantic Web Challenge, Shanghai, China.

[OECD, 2002] International Mobility of the Highly Skilled. Policy Brief, OECD, 2002, Paris.

[Rogers 2010] Richard Rogers, "Internet Research: The Question of Method," Journal of Information Technology and Politics 7 (2010): 241-260.

[Shokhenmayer 2010] Evgeny Shokhenmayer Cartography in onomastic research / TRANS vol.18; Virtual INST World Conference. CCKS: Cities, Cultures, Knowledge Societies. Section ‘Cartographic Science as a Reflection of Knowledge Societies and Cultures’, 2010

[Tummarello et al. 2010] Giovanni Tummarello, Richard Cyganiak, Michele Catasta, Szymon Danielczyk, Renaud Delbru, Stefan Decker "Sig.ma: Live views on the Web of Data", Journal of Web Semantics: Science, Services and Agents on the World Wide Web - Volume 8, Issue 4, November 2010, Pages 355-364

[Yates et al. 2007] Alexander Yates, Michael Cafarella, Michele Banko, Oren Etzioni, Matthew Broadhead, and Stephen Soderland. 2007. TextRunner: open information extraction on the web. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations (NAACL-Demonstrations '07)

Calendrier du projet

Année Activités But
1
  • État de l’art
  • Testbed à partir des corpus CIDESAL (Conacyt + Conicet + Colciencias)
  • Actualisation d’Unoporuno
  • Prise en main de FRED
  • Charte éthique pour la manipulation de données biographiques extraites du web
  • Cas d’utilisation
Développer un cadre théorique, méthodologique et technologique d’analyse et d’évaluation de la qualité des données pour le projet.
2
  • Clustering des résultats d’Unoporuno par WSI (Word Sense Induction)
  • Ontologie des savoirs / Vocabulaires / compilation de ressources épistémiques appropriées (lexiques, dictionnaires, thésaurus)
  • Annotation des entités nommées + évaluation * Extraction d’évènements + évaluation
  • Grammaire formelle pour reconnaitre les noms des personnes en espagnol, français, anglais et allemand + évaluation
Chaine de traitement TAL + Machine reading
3
  • Intégration Unoporuno+FRED
  • Crosslingual FRED * Production de RDF + évaluation
  • Premières cartographies individuelles
Développer une chaine multilangue, le graphe RDF et les premières cartographies individuelles.
4 Cartographies à plus grande échelle. Statistiques a plus grande échelle. Corrélation web vs terrain

Actions

Année Actions
1
  • Une mission de 15 jours pour 2 chercheurs mexicains en France.
  • Une mission de 15 jours pour 2 chercheurs français au Mexique
  • Une mission d’un mois pour un doctorant français au Mexique
  • Publication conjointe d’un article de prise de position
2
  • Une mission de 15 jours pour 2 chercheurs mexicains en France.
  • Une mission de 15 jours pour 2 chercheurs français au Mexique
  • Publication conjointe des résultats préliminaires
3
  • Une mission de 15 jours pour 2 chercheurs mexicains en France.
  • Une mission de 15 jours pour 2 chercheurs français au Mexique
  • Publication conjointe des résultats préliminaires
4
  • Une mission de 15 jours pour 2 chercheurs mexicains en France.
  • Une mission de 15 jours pour 2 chercheurs français au Mexique
  • Organisation d’un congrès de présentation des résultats et clôture
  • Participation conjointe dans le jury de thèse du doctorant mexicain financé par CONACYT.
  • Publication conjointe des résultats du projet dans un journal

Résultats escomptés au terme de l'action

  1. Corpus et batterie de tests pour l’extraction des trajectoires professionnelles du web.
  2. Méthode pour cartographier les diasporas des savoirs à partir des données disponibles sur le web.
  3. Outil de production des cartographies individuelles des experts, soit à partir d’un nom d’expert, soit à partir d’un domaine d’expertise et des contraintes biographiques.
  4. Ontologie des savoirs
  5. Publications conjointes des équipes du Mexique et de la France.
  6. Organisation d’un colloque franco-mexicain avec des doctorants et chercheurs intéressés dans la thématique du projet.
  7. Formation de ressources humaines (étudiants et chercheurs) dans la fouille sémantique du web.

Antécédents de coopération

  1. Davide Buscaldi (LIPN), Jorge Garcia Flores (LIPN) et Iván Vladimir Meza (IIMAS) ont participé ensemble dans la campagne d'évaluation sémantique Semeval 2015 (tâche: similarité sémantique), ce qui a donnée lieu à une publication conjointe dans les actes du workshop.
  2. Davide Buscaldi (LIPN) et Iván Vladimir Meza (IIMAS) ont participé conjointement dans la tâche de profilage d'auteur pour la campagne PAN-CLEF 2015 (ce qui donnera lieu a une publication conjointe dans les actes du workshop).
  3. Aldo Gangemi (LIPN), Jorge Garcia Flores (LIPN), Iván Vladimir Meza (IIMAS) et Luis Pineda (IIMAS) ont rédigé ensemble le projet Génération de récits à partir d'expériences spatiales d'un robot de service par extraction de connaissances textuelles, qui vient d'être retenu pour financement dans l'appel Petites initiatives de recherche, d'animation et de transfert (PIRAT 2015) de l'Agence Universitaire pour la Francophonie.
  4. Jorge Garcia Flores (LIPN) et Ivan Vladimir Meza travaillent depuis février 2015 dans le co-encadrement de la recherche de l'étudiant de master Victor Manuel Corza Vargas à l'IIMAS sur le thème Réingénierie d'un système de fouille de données pour tracer la diaspora hautement qualifié sur le web.

Publication des équipes concernées

Équipe française

Aldo Gangemi

  • Andrea Giovanni Nuzzolese, Valentina Presutti, Aldo Gangemi, Alberto Musetti and Paolo Ciancarini (2013): Aemoo: exploring knowledge on the Web. Proceedings of WebSci2103 (ACM Web Science Conference), ACM, 2013.
  • Aldo Gangemi. A Comparison of Knowledge Extraction Tools for the Semantic Web (2013): Proceedings of ESWC2013, LNCS, Springer, 2013.
  • Valentina Presutti, Francesco Draicchio and Aldo Gangemi. Knowledge extraction based on Discourse Representation Theory and Linguistic Frames (2012): A. ten Teije and J. Völker (eds.): Proceedings of the Conference on Knowledge Engineering and Knowledge Management (EKAW2012), LNCS, Springer, 2012.
  • Baldassarre C., Daga E., Gangemi A., Gliozzo A., Salvati A., Troiani G. Semantic Scout (2010): Making Sense of Organizational Knowledge. P. Cimiano and S: Pinto (eds.): Proceedings of the Conference on Knowledge Engineering and Knowledge Management (EKAW2010), Springer, 2010.
  • Ciaramita M, Gangemi A, Ratsch E, Rojas I, Saric J. (2005): Unsupervised Learning of Semantic Relations between Concepts of a Molecular Biology Ontology, in Proceedings of International Joint Conference on Artificial Intelligence (IJCAI2005), 2005.

Dana Diminescu

  • Diminescu D. (ed.): Special issue: Diasporas on the Web (2012) Social Science Information Journal, December 2012; 51 (4) Publisher: SAGE, on behalf of Maison des Sciences de l’Homme, Paris, ISSN 0539-0184, 245 pages.
  • Diminescu D. The connected migrant: an epistemological manifesto. Social Science Information (December 2008) vol. 47 no. 4 565-579
  • Diminescu D., 2007 « Le passage par l’écran : ou l’émergence de nouvelles frontières », in Actes du colloque Les frontières de l’Europe, Ed Universitatii, Bucarest, pp 263-274
  • Diminescu D., (2006), « L’usage du téléphone portable par les migrants en situations précaire », in Quatre ans de recherche urbaine (2001-2004), ACI-Ville Min de la recherche, E. Bajolet, MF Mattei, JM Rennes (sld ), Presse Universitaire François Rabelais, MSH Ville et territoire, Tours, 2006, pp90-98
  • Diminescu D., (2006), « Genèse d’une figure de migrant, in Cosmopolitiques n°11/2006, ed Apogée, Paris, pp. 63-73

Davide Buscaldi

  • Davide Buscaldi and Paulo Rosso. A conceptual density-based approach for the disambiguation of toponyms. Int. J. Geogr. Inf. Sci., 22(3) :301–313, 2008
  • Davide Buscaldi, Paolo Rosso, José Manuel Gómez, and Emilio Sanchis. Answering questions with an n-gram based passage retrieval engine. Journal of Intelligent Information Systems (JIIS), 34(2) :113–134, 2009.
  • Paolo Rosso, Santiago Correa, and Davide Buscaldi. Passage retrieval in legal texts. Journal of Logic and Algebraic Programming, 80(3-5) :139 – 153, 2011.
  • Guillaume Cleuziou, Davide Buscaldi, Vincent Levorato, and Gaël Dias. A pretopological framework for the automatic construction of lexical-semantic structures from texts. In CIKM ’11 : Proceedings of the 20th ACM international conference on Information and knowledge management, pages 2453–2456, New York, NY, USA, 2011. ACM.
  • Davide Buscaldi. Approaches to disambiguating toponyms. SIGSPATIAL Special, 3(2) :16–19, 2011.

Jorge J. Garcia Flores

  • D. Buscaldi, J. Garcia Flores, I. V. Meza and I. Rodriguez (2015) SOPA: Random Forests Regression for the Semantic Textual Similarity task. In Procedings of the International Workshop on Semantic Evaluation (SemEval-2015), June 3-5, Denver, Colorado (in press).
  • J. J. Garcia Flores, Pierre Zwigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, pp. 180-191.
  • J. Garcia-Flores and W.A. Turner (2011) A Nominal Filter for Web Search Snippets: Using the Web to Identify Members of Latin America’s Highly Qualified Diaspora. In I.Z. Batyrshin & G. Sidorov, Mexican International Conference on Artificial Inteligence (MICAI 2011), IEEE press, ISBN: 978-1-4577-2173-1, pp. 45-50.
  • B. Djioua, J.J. Garcia Flores, A. Blais, J-P. Desclés, G. Guibert, A Jackiewicz., F. Le Priol, L. Nait-Baha, B. Sauzay (2006) EXCOM: an automatic annotation engine for semantic information. In G. Sutcliff & R. Goebel (eds.): Florida Artificial Intelligence Research Society Conference (FLAIRS 2006), Association for the Advancement of Artificial Intelligence Press, ISBN 978-1-57735-261-7, pp. 285-290 .

Jean Baptiste Meyer

TODO

Thierry Charnois

TODO

Équipe mexicaine

Iván Vladimir Meza R.

  • C. Rascón, G. Fuentes, and I. Meza (2015): Lightweight multi-DOA tracking of mobile speech sources. EURASIP Journal on Audio, Speech, and Music Processing, Vol. 11, pp. 16, 2015.
  • I. Meza, C. Rascon, and L. Pineda (2013): Practical Speech Recognition for Contextualized Service Robots. Proceedings MICAI 2013. LNCS (LNAI), Vol. 8266, pp. 423-434, 2013.
  • I. Meza, E. Pérez, L. Salinas, H. Avilés and L. Pineda (2010): A Multimodal Dialogue System for Playing the Game “Guess the card”. Procesamiento de Lenguaje Natural, Vol. 44, pp. 131-138, 2010.
  • Ivan Meza-Ruiz, Sebastian Riedel (2009): Jointly identifying predicates, arguments and senses using Markov logic. Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 155-163, 2009.
  • Sebastian Riedel, Ivan Meza-Ruiz (2008): Collective semantic role labelling with Markov logic. Proceedings of the Twelfth Conference on Computational Natural Language Learning, pp. 193-197, Association for Computational Linguistics, 2008.

Luis A. Pineda C.

  • L. Pineda, A. Rodríguez, G. Fuentes, C. Rascón and I. Meza (2015): Concept and Functional Structure of a Service Robot. International Journal of Advanced Robotic Systems, Vol. 12:6, pp. 1-15, 2015.
  • Luis Pineda, Salinas, L., Meza, I., Rascon, C., and Fuentes, G. (2013): SitLog: A Programming Language for Service Robot Tasks. International Journal of Advanced Robotic Systems. vol 10.358, pp 12. 2013.
  • Luis A Pineda, Hayde Castellanos, Javier Cuétara, Lucian Galescu, Janet Juárez, Joaquim Llisterri, Patricia Pérez, Luis Villaseñor (2010): The Corpus DIMEx100: transcription and evaluation. Language Resources and Evaluation 44 (4), 347-370.
  • Luis Pineda, Estrada, V., Coria, S. and Allen, J. (2007): The obligations and common ground structure of practical dialogues. In Revista Iberoamericana de Inteligencia Artificial.. vol 11(36), pp 9-17. 2007.
  • Luis Pineda, Gabriela Garza (2000) A model for multimodal reference resolution. Computational Linguistics 26 (2), 139-193

Fernando Lozano Ascencio

Suggestion de 2 référés

Pierre Zweigenbaum

pz@limsi.fr
(+33) 01 69 85 80 04
LIMSI-CNRS BP 133, F-91403 ORSAY CEDEX

Jean-Baptiste Meyer

jean-baptiste.meyer@ird.fr
(+33)4 13 55 07 47
Université de Provence, case 10
3, place Victor Hugo
13331 Marseille, cedex 03 France

Liens

ToDo

  1. To confirm the intrest of all the consortium members (DONE)
  2. To finish the french document and start looking for the support letter from BRED
  3. To ask for the mexican and french team CV
  4. To start filling the Conacyt online document
  5. To find an evaluator on sociology (Dominique Bouiller?)