ECOS Nord 2014
Cartographie de la diaspora des savoirs par fouille sémantique des résultats de recherches sur le web
La localisation des migrants hautement qualifiés est un problème crucial pour les pays émergents. Au delà des méthodes propres à la sociologie de la migration, comme les enquêtes de terrain ou les recensements de la population, une solution attractive est la mise en place des techniques informatiques de fouille sémantique de textes avec le but de cartographier la trajectoire professionnelle des membres de la diaspora des savoirs à partir de documents disponibles sur le web. Cette tâche présente plusieurs défis pour les technologies du langage naturel: la recherche et extraction d'information biographique; la désambigüisation des noms propres, termes scientifiques et toponymes; le calcul de similarité sémantique entre des fragments courts de texte produits par un moteur de recherche; la classification terminologique par domaine de connaissance ainsi que l'extraction d’évènements. Notre objectif est double: d'un côté il s'agit de produire des cartographies individuelles pour la trajectoire professionnelle (géographique et thématique) des membres de la diaspora des savoirs à partir des sources de données institutionnelles (comme par exemple la base d'ex-boursiers CONACYT); d'un autre côté nous envisageons de permettre la recherche d'experts appartenant à la diaspora hautement qualifiée à partir de mots clés (par exampe: chercher un expert en freinage à courants de Foulcault d'origine mexicaine ayant été formé en France). L'expérience conjointe des équipes de recherche composant le consortium offre un large spectre méthodologique pour approfondir la collaboration entre partenaires: Dans un premier temps nous mettrons en place un cadre expérimental avec des données issus de sources institutionnelles (CONACYT, CONICET, COLCIENCIAS) et de projets de recherche en sociologie de la diaspora des savoirs (CIDESAL). Dans un deuxième temps nous étudierons de manière critique les méthodes linguistiques et statistiques les plus aptes à la fouille sémantique des résultats d'un moteur de recherche. Cette étape permettra le classement des résultats par clustering et sa desambigüisation par WSI (Word Sense Induction) pour en extraire les relations sémantique entre un nom propre, des institutions, des lieux géographiques et des dates constituant une trajectoire professionnelle. Une attention particulière sera donnée à la caractérisation épistémologique du domaine d'expertise en faisant appel à des ontologies des savoirs et à des calculs de proximité sémantique. Cet ensemble impliquera la représentation de relations extraites sous la forme d'un graphes RDF construit par machine reading, d'où la cartographie sera générée. Notre but ultime est d'établir les bases méthodologiques pour une nouvelle génération d'outils de recherche d'experts qui prennent en compte le contexte biographique et géographique propre à chaque personne.
Dossier
- Document scientifique et lien pour télécharger une nouvelle version
Cartografía de la diáspora calificada aplicando técnicas de minería semántica a resultados de búsquedas en la web
La localización de los emigrantes altamente calificados representa un problema crucial para los países en vías de desarrollo. Además de las técnicas tradicionalmente utilizadas en sociología de la migración, como las encuestas de campo o los censos poblacionales, una solución atractiva para este problema parte de la utilización de técnicas computacionales de minería semántica de textos con la finalidad de cartografiar la trayectoria profesional de los miembros de la diáspora altamente calificada a partir de información publicada en la web. Esta tarea representa un reto científico en diversas áreas del procesamiento del lenguaje natural: búsqueda y recuperación de información biográfica; desambiguación de nombres propios, términos científicos y topónimos; cálculo de proximidad semántica entre los fragmentos cortos de texto característicos de los motores de búsqueda, clasificación terminológica por disciplina del conocimiento y extracción de eventos. Nuestro objetivo es doble: por un lado cartografiar de manera individual la trayectoria profesional (geográfica y temática) de los miembros de la diáspora altamente calificada a partir de la escasa información disponible en bases de datos institucionales (como la base de ex becarios del CONACYT) y, por otro lado, permitir la búsqueda de expertos pertenecientes a la diáspora altamente calificada a partir de consultas por palabras clave (ejemplo: buscar un experto en frenado por corrientes de Foucault, de nacionalidad mexicana, de preferencia formado en Francia). La experiencia conjunta de los equipos de investigación asociados al proyecto ofrece un amplio abanico metodológico para cimentar la colaboración: en principio conformaremos un marco experimental con datos provenientes de fuentes institucionales (CONACYT, CONICET, COLCIENCIAS) así como de proyectos de investigación en sociología de las diásporas calificadas (CIDESAL). A continuación estudiaremos de manera crítica los métodos estadísticos y lingüísticos apropiados para llevar a cabo la minería semántica de los resultados de un motor de búsqueda. A partir de este estudio implementaremos algoritmos de clasificación de grupos de resultados (clustering) y de desambiguación por medio de WSI (Word Sense Induction) con la finalidad de extraer las relaciones semánticas entre un nombre propio, las instituciones, los lugares geográficos y las fechas que conforman una trayectoria profesional. De particular importancia será la caracterización epistemológica de las áreas de experiencia utilizando ontologías del conocimiento y cálculos de proximidad semántica. El resultado de este conjunto será un grafo RDF construido por medio de técnicas de machine reading, en donde dichas relaciones semánticas sean representadas. Este grafo servirá de base para la generación de la cartografía. El fin último de nuestra propuesta consiste en sentar las bases metodológicas para una nueva generación de herramientas de búsqueda de expertos sensibles al contexto biográfico y geográfico propio de cada persona.
Expediente
- Propuesta científica y vínculo para subir una nueva versión
- Becas CONACYT-Gobierno francés 2014 (fecha límite: 6 de junio del 2014)
Mapping highly qualified migrations through semantic mining of web search results
Finding highly qualified immigrants is a main concern for developing nations. Traditional, sociological sources rely on field data and qualitative studies in order to analyze highly skilled immigrations. However, highly qualified migrants are a very visible population on the web, so it is possible to apply information extraction, semantic web mining and expert finding techniques to propose a new kind of web-based resource for mapping highly qualified migrations.
- Keywords**: expert finding, highly qualified migrations, semantic web, machine reading, web mining, natural language processing
References
Semantic Web Mining
Expert Finding
Digital methods applied to sociology and migrations
Folk
- Digital Humanities and Immigrations @ ASU
- Digital humanities @ Viriginia Library
- Biogeograpy @ Wikipedia