ECOS Nord 2014
Sommaire
- 1 Cartographie de la diaspora des savoirs par fouille sémantique des résultats de recherches sur le web
- 2 Cartografía de la diáspora calificada aplicando técnicas de minería semántica a resultados de búsquedas en la web
- 3 Mapping highly qualified migrations through semantic mining of web search results
- 4 References
Cartographie de la diaspora des savoirs par fouille sémantique des résultats de recherches sur le web
La localisation des migrants hautement qualifiés est un problème crucial pour les pays émergents. Au delà des méthodes propres à la sociologie de la migration, comme les enquêtes de terrain ou les recensements de la population, une solution attractive est la mise en place des techniques informatiques de fouille sémantique de textes avec le but de cartographier la trajectoire professionnelle des membres de la diaspora des savoirs à partir de documents disponibles sur le web. Cette tâche présente plusieurs défis pour les technologies du langage naturel: la recherche et extraction d'information biographique; la désambigüisation des noms propres, termes scientifiques et toponymes; le calcul de similarité sémantique entre des fragments courts de texte produits par un moteur de recherche; la classification terminologique par domaine de connaissance ainsi que l'extraction d’évènements. Notre objectif est double: d'un côté il s'agit de produire des cartographies individuelles pour la trajectoire professionnelle (géographique et thématique) des membres de la diaspora des savoirs à partir des sources de données institutionnelles (comme par exemple la base d'ex-boursiers CONACYT); d'un autre côté nous envisageons de permettre la recherche d'experts appartenant à la diaspora hautement qualifiée à partir de mots clés (par exampe: chercher un expert en freinage à courants de Foulcault d'origine mexicaine ayant été formé en France). L'expérience conjointe des équipes de recherche composant le consortium offre un large spectre méthodologique pour approfondir la collaboration entre partenaires: Dans un premier temps nous mettrons en place un cadre expérimental avec des données issus de sources institutionnelles (CONACYT, CONICET, COLCIENCIAS) et de projets de recherche en sociologie de la diaspora des savoirs (CIDESAL). Dans un deuxième temps nous étudierons de manière critique les méthodes linguistiques et statistiques les plus aptes à la fouille sémantique des résultats d'un moteur de recherche. Cette étape permettra le classement des résultats par clustering et sa desambigüisation par WSI (Word Sense Induction) pour en extraire les relations sémantique entre un nom propre, des institutions, des lieux géographiques et des dates constituant une trajectoire professionnelle. Une attention particulière sera donnée à la caractérisation épistémologique du domaine d'expertise en faisant appel à des ontologies des savoirs et à des calculs de proximité sémantique. Cet ensemble impliquera la représentation de relations extraites sous la forme d'un graphes RDF construit par machine reading, d'où la cartographie sera générée. Notre but ultime est d'établir les bases méthodologiques pour une nouvelle génération d'outils de recherche d'experts qui prennent en compte le contexte biographique et géographique propre à chaque personne.
Dossier
- Document scientifique et lien pour télécharger une nouvelle version
- CV Aldo Gangemi
- Page signée par l'Université Paris 13
- Coopération scientifique avec le Mexique: Appel à projets
- Fouille de documents scientifiques pour l’étude de la circulation et l’échange de savoirs sur les ressources naturelles : une cartographie terminologique (ECOS 2013)
Cartografía de la diáspora calificada aplicando técnicas de minería semántica a resultados de búsquedas en la web
La localización de los emigrantes altamente calificados representa un problema crucial para los países en vías de desarrollo. Además de las técnicas tradicionalmente utilizadas en sociología de la migración, como las encuestas de campo o los censos poblacionales, una solución atractiva para este problema parte de la utilización de técnicas computacionales de minería semántica de textos con la finalidad de cartografiar la trayectoria profesional de los miembros de la diáspora altamente calificada a partir de información publicada en la web. Esta tarea representa un reto científico en diversas áreas del procesamiento del lenguaje natural: búsqueda y recuperación de información biográfica; desambiguación de nombres propios, términos científicos y topónimos; cálculo de proximidad semántica entre los fragmentos cortos de texto característicos de los motores de búsqueda, clasificación terminológica por disciplina del conocimiento y extracción de eventos. Nuestro objetivo es doble: por un lado cartografiar de manera individual la trayectoria profesional (geográfica y temática) de los miembros de la diáspora altamente calificada a partir de la escasa información disponible en bases de datos institucionales (como la base de ex becarios del CONACYT) y, por otro lado, permitir la búsqueda de expertos pertenecientes a la diáspora altamente calificada a partir de consultas por palabras clave (ejemplo: buscar un experto en frenado por corrientes de Foucault, de nacionalidad mexicana, de preferencia formado en Francia). La experiencia conjunta de los equipos de investigación asociados al proyecto ofrece un amplio abanico metodológico para cimentar la colaboración: en principio conformaremos un marco experimental con datos provenientes de fuentes institucionales (CONACYT, CONICET, COLCIENCIAS) así como de proyectos de investigación en sociología de las diásporas calificadas (CIDESAL). A continuación estudiaremos de manera crítica los métodos estadísticos y lingüísticos apropiados para llevar a cabo la minería semántica de los resultados de un motor de búsqueda. A partir de este estudio implementaremos algoritmos de clasificación de grupos de resultados (clustering) y de desambiguación por medio de WSI (Word Sense Induction) con la finalidad de extraer las relaciones semánticas entre un nombre propio, las instituciones, los lugares geográficos y las fechas que conforman una trayectoria profesional. De particular importancia será la caracterización epistemológica de las áreas de experiencia utilizando ontologías del conocimiento y cálculos de proximidad semántica. El resultado de este conjunto será un grafo RDF construido por medio de técnicas de machine reading, en donde dichas relaciones semánticas sean representadas. Este grafo servirá de base para la generación de la cartografía. El fin último de nuestra propuesta consiste en sentar las bases metodológicas para una nueva generación de herramientas de búsqueda de expertos sensibles al contexto biográfico y geográfico propio de cada persona.
Expediente
- Propuesta científica y vínculo para subir una nueva versión
- Carta de apoyo al proyecto firmada por la UAM
- CV Héctor Jiménez Salazar
- Formato para la presentación de proyectos
- Documentación necesaria para el expediente administrativo
- Convocatoria ECOS Nord 2014
- Sitio oficial: Acuerdo México-Francia, Programa ECOS
- Minería de textos para el estudio de la circulación e intercambio del conocimiento sobre los recursos naturales en México: una perspectiva terminológica. (ECOS 2013)
- Proyectos aprobados en ECOS 2013
- Becas CONACYT-Gobierno francés 2014 (fecha límite: 6 de junio del 2014)
- Calendario DELF 2014 - Alliance Française de Puebla
Mapping highly qualified migrations through semantic mining of web search results
Finding highly qualified immigrants is a main concern for developing nations. Traditional, sociological sources rely on field data and qualitative studies in order to analyze highly skilled immigrations. However, highly qualified migrants are a very visible population on the web, so it is possible to apply information extraction, semantic web mining and expert finding techniques to propose a new kind of web-based resource for mapping highly qualified migrations.
- Keywords: expert finding, highly qualified migrations, semantic web, machine reading, web mining, natural language processing
References
Semantic Web Mining
- Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction
- sig.ma LOD2 semantic mashup
- Semantic Web Mining: State of the art and future directions
- Using Web-Mining for Academic Measurement and Scholar Recommendation in Expert Finding System
- Expert Discovery: A web mining approach and A Novel Web Mining Architecture for Expert Discovery
Expert Finding
- Saffron
- Expertise Mining
- Exploring Your Research: Sprinkling some Saffron on Semantic Web Dog Food
- Combining RDF vocabularies for expert finding
- Expert finding for eCollaboration using FOAF with RuleML rules
- Finding experts using Internet-based discussions in online communities and associated social networks
- The expertfinder corpus 2007 for the benchmarking and development of expertfinding systems
- Expert finding in social networks
Digital methods applied to sociology and migrations
- Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis
- e-Diasporas Atlas
- Internet research: The question of method
- NamSor Applied Onomastics to help Lithuania become a talent magnet in BioTech
- Revealing the Irish, French, Indonesian digital diasporas
- Namsor: Applied onomastics
Folk
- Named-based text analysis
- "expert finding" + galway in google
- "expert finding" + "web mining" in Google
- Digital Humanities and Immigrations @ ASU
- Digital humanities @ Viriginia Library
- Biogeograpy @ Wikipedia