Table des matières

Cartografía de la diáspora calificada aplicando técnicas de minería semántica a resultados de búsquedas en la web

Área del conocimiento

  1. Ciencias naturales, exactas y de la computación
  2. Ciencias sociales

Palabras clave

búsqueda de expertos, migración altamente calificada, minería semántica, recuperación de información

Resumen del proyecto

La localización de los emigrantes altamente calificados representa un problema crucial para los países en vías de desarrollo. Además de las técnicas tradicionalmente utilizadas en sociología de la migración, como las encuestas de campo o los censos poblacionales, una solución atractiva para este problema parte de la utilización de técnicas computacionales de minería semántica de textos con la finalidad de cartografiar la trayectoria profesional de los miembros de la diáspora altamente calificada a partir de información publicada en la web. Esta tarea representa un reto científico en diversas áreas del procesamiento del lenguaje natural: búsqueda y recuperación de información biográfica; desambiguación de nombres propios, términos científicos y topónimos; cálculo de proximidad semántica entre los fragmentos cortos de texto característicos de los motores de búsqueda, clasificación terminológica por disciplina del conocimiento y extracción de eventos. Nuestro objetivo es doble: por un lado cartografiar de manera individual la trayectoria profesional (geográfica y temática) de los miembros de la diáspora altamente calificada a partir de la escasa información disponible en bases de datos institucionales (como la base de ex becarios del CONACYT) y, por otro lado, permitir la búsqueda de expertos pertenecientes a la diáspora altamente calificada a partir de consultas por palabras clave (ejemplo: buscar un experto en frenado por corrientes de Foucault, de nacionalidad mexicana, de preferencia formado en Francia). La experiencia conjunta de los equipos de investigación asociados al proyecto ofrece un amplio abanico metodológico para cimentar la colaboración: en principio conformaremos un marco experimental con datos provenientes de fuentes institucionales (CONACYT, CONICET, COLCIENCIAS) así como de proyectos de investigación en sociología de las diásporas calificadas (CIDESAL). A continuación estudiaremos de manera crítica los métodos estadísticos y lingüísticos apropiados para llevar a cabo la minería semántica de los resultados de un motor de búsqueda. A partir de este estudio implementaremos algoritmos de clasificación de grupos de resultados (clustering) y de desambiguación por medio de WSI (Word Sense Induction) con la finalidad de extraer las relaciones semánticas entre un nombre propio, las instituciones, los lugares geográficos y las fechas que conforman una trayectoria profesional. De particular importancia será la caracterización epistemológica de las áreas de experiencia utilizando ontologías del conocimiento y cálculos de proximidad semántica. El resultado de este conjunto será un grafo RDF construido por medio de técnicas de machine reading, en donde dichas relaciones semánticas sean representadas. Este grafo servirá de base para la generación de la cartografía. El fin último de nuestra propuesta consiste en sentar las bases metodológicas para una nueva generación de herramientas de búsqueda de expertos sensibles al contexto biográfico y geográfico propio de cada persona.

Instituciones Participantes

En México

Universidad Nacional Autónoma de México

  1. Instituto de Investigación en Matemáticas Aplicadas y Sistemas (IIMAS)
    • Director: Héctor Benitez Pérez
  2. Centro Regional de Investigaciones Multidisciplinarias (CRIM)

En Francia

Université Paris 13

ENST Télécom Paris

Institut de recherche pour le développement

Responsables del proyecto

En Francia

En México

Vínculos administrativos

México

ANUIES

Cindy Griselle Gasca Martínez
Asistente administrativo de relaciones internacionales

CONACYT

Lic. Dafne Jerez Saldaña
Subdirectora de Estrategias de Cooperación Bilateral y Multilateral
Dirección Adjunta de Planeación y Cooperación Internacional

Francia

Lista de investigadores participantes en el proyecto

En México

Nombre Categoría Máximo grado académico Unidad de adscripción Actividad a realizar
Luis A. PINEDA CORTES Doctorado, University of Edinburgh, 1990 IIMAS/UNAM Investigador Titular B (SNI nivel II) Desarrollo y validación del modelo semántico
Ivan Vladimir MEZA RUIZ Doctorado, University of Edinburgh, 2009 IIMAS/UNAM Técnico Académico Adaptación de algoritmos de aprendizaje automático
Fernando LOZANO ASCENCIO Doctorado, University of Texas CRIM/UNAM Investigador Titular C (SNI Nivel II) Validación de las hipótesis sociológicas y la utilidad de la plataforma
Gibrán FUENTES PINEDA Doctorado, University of Electro-Communications, Japón IIMAS/UNAM Investigador Asociado Aprendizaje automático

En Francia

Nombre Categoría Máximo grado académico Unidad de adscripción Actividad a realizar
Aldo GANGEMI Profesor investigador titular Master en filosofía, Sapienza, 1989 LIPN/Université Paris 13 Machine Reading, RDF/OWL, Web Semántica, FRED.
Thierry CHARNOIS Profesor investigador titular Doctorado, LIPN, 1999 LIPN/Université Paris 13 Extracción de patrones biográficos
Davide BUSCALDI Maestro investigador titular Doctorado, Politécnica de Valencia, 2010 LIPN/Université Paris 13 Proximidad semántica, extracción de información.
Jorge GARCIA FLORES Ingeniero investigador titular Doctorado, Paris-Sorbonne, 2007 LIPN/Université Paris 13 Anotación de resultados de motores de búsqueda, gramáticas formales para el reconocimiento de nombres propios.
Ehab HASSAN Doctorando Maestría, Paris Dauphine,2011 LIPN/Université Paris 13 Extracción de eventos temporales
Dana DIMINESCU Maestría, ENST ENST – Télécom ParisTech Maestra investigadora titular Visualización de cartografías y validación sociológica
Jean-Baptiste MEYER Doctorado, ENSMP, 1992 Institut de recherche pour le développement (IRD) Director de investigación titular Validación sociológica de los resultados

Medios

Medios solicitados en el programa SEP-CONACYT-ANUIES para el primer año del proyecto

Francia -> México

  1. Misiones solicitadas para el 1er año del proyecto para investigadores con doctorado confirmados, mencionando a los beneficiarios y la duración (máximo 15 días):
  2. Misiones para dos investigadores franceses en México
    • Davide Buscaldi, misión de 15 días
    • Jorge Garcia Flores, misión de 15 días
  3. Estancias (de 1 a 2 meses) para investigadores en formación (doctorandos)
    • Ehab Hassan (1 mes)

México --> Francia

  1. Misiones solicitadas para el 1er año del proyecto para investigadores con doctorado confirmados, mencionando a los beneficiarios y la duración (máximo 15 días):
  2. Luis A. Pineda Cortés, misión de 15 días
  3. Iván Vladimir Meza Ruiz, misión de 15 días

Formación doctoral

Descripción detallada del proyecto

Identificación del tema y estado del conocimiento

La localización de la emigración altamente calificada es un problema de vital importancia para los países en vías de desarrollo. Más allá de las fuentes demográficas, como los censos de población, las encuestas de campo sobre población activa, las fuentes gubernamentales (registros de permisos de trabajo para extranjeros, registros de visados) y las estadísticas de la [OCDE 2002], una solución atractiva para este problema se apoya en técnicas computacionales de recuperación semántica de información con el objetivo de cartografiar la trayectoria profesional de los miembros de la diáspora del conocimiento exclusivamente a partir de información publicada en Internet.

La primera aplicación de tecnologías del lenguaje humano al campo de la sociología de la migración fue el sistema Unoporuno [Garcia Flores et al. 2012], desarrollado en el marco del proyecto CIDESAL . Este sistema permite clasificar automáticamente a potenciales miembros de la diáspora altamente calificada de acuerdo a su movimiento migratorio: 1) un movimiento lineal (se van del país para estudiar o trabajar y ya no regresan); 2) un movimiento circular (tras los estudios, regresan a su país); 3) ausencia de movimiento (la persona nunca sale de su país de origen). Unoporuno recibe de entrada una lista de nombres en contexto (por ejemplo: un conjunto de fichas bibliográficas). A partir de este conjunto de datos, Unoporuno hace minería del web con la finalidad de clasificar a las personas en cuestión por medio de procesos de aprendizaje automático según su movimiento. Gracias a los socios del proyecto CIDESAL, se logró reunir una base de aproximadamente 13000 miembros potenciales de la diáspora altamente calificada. Los registros de esta base provienen tanto de una aspiración de la base de publicaciones científicas del ISI Web of Science como de bases de datos de exbecarios que los organismos científicos nacionales lationamericanos proporcionaron: CONICET en Argentina, COLCIENCIAS en Colombia, SNI en Uruguay y CONACYT en México [CIDESAL 2014]. El principal límite de Unoporuno es que no hay recuperación alguna de información semántica, sino solamente un proceso de clasificación automática por medio de un análisis rasgos semánticos de los resultados de una consulta automática en un motor de búsqueda. En cuanto a al hecho de cartografiar a la diáspora utilizando los datos disponibles en Internet, los avances más recientes fueron llevados a cabo durante el proyecto e-Diáspora Atlas o “atlas de la diáspora electrónica”. Este proyecto consistió en censar y analizar algo más de 8000 sitios web creados o frecuentados por los emigrantes del mundo entero. A partir de este análisis fueron producidos mapas de hipervínculos que caracterizaban a las diásporas nacionales según la topología creada sus hipervínculos [Diminescu 2008]. El sistema Name-sor es otro ejemplo significativo de aplicación de técnicas cartográficas al análisis de los movimientos migratorios. Este sistema se apoya en un análisis onomástico del origen geográfico de los nombres propios de los usuarios de Twitter [Shokhenmayer 2010] con el objetivo de producir un mapa de la densidad de las distintas diásporas nacionales representadas por los usuarios de esta red social. Curiosamente ningún sistema de búsqueda de expertos (expert finding) ha sido nunca aplicado a la búsqueda de emigrantes altamente calificados. Esto se debe quizás a que estos sistemas no suelen tomar en cuenta la información biográfica de los expertos, puesto que sus esfuerzos metodológicos se concentran en recuperar relaciones epistemológicas estables entre un experto y su ámbito de experiencia (o dominio). A nosotros nos parece que el pasaje entre una búsqueda de expertos y una búsqueda de personas en Internet (emigrantes o no) forma parte de un continuo, y que las herramientas de búsqueda de expertos ganarían precisión si tomaran en cuenta el contexto biográfico de los expertos-objeto de su búsqueda (el país de origen, el país de formación, la trayectoria profesional). Y, de manera recíproca, el ámbito de especialidad o la pura profesión podría ser considerado como un valioso elemento de desambiguación de homónimos en las tareas de búsqueda de personas por Internet. Dos aplicaciones de búsqueda de expertos destacan en el panorama de esta tarea: Saffron [Monaghan et al. 2010] y Sig.ma [Tummarello et al. 2010]. Saffron aplica el procesamiento del lenguaje natural a la anotación de páginas web pertinentes para la búsqueda de expertos, mientras que Sig.ma explota los metadatos de las mismas. Ambos hacen abundante uso de las representaciones semánticas en RDF para caracterizar el horizonte epistemológico del ámbito de especialidad de los expertos. Los mejores resultados reportados en la literatura en lo que a minería semántica de resultados de motores de búsqueda se refiere fueron obtenidos con el método de inducción del sentido de las palabras (Word Sense Induction o WSI) [Di Marco & Navigli 2013], que se apoya en un análisis de capas de coocurrencia léxica y en el uso de DBpedia y Babelnet para desambiguar y agrupar los resultados. En cuanto a la minería de relaciones semánticas necesarias para reconstruir la trayectoria profesional de una persona, diversas herramientas han sido propuestas. Citaremos aquí dos de ellas: Text Runner [Yates et al. 2007] recupera información de un texto por medio de una cadena de procesamiento que incluye el análisis morfosintáctico de las frases que componen el texto, el reconocimiento de sintagmas nominales y la producción de un conjunto de binomios representativos de las relaciones semánticas en el texto. En la misma línea, FRED [Gangemi et al. 2014] es una herramienta de “lectura a máquina” (machine reading) capaz de extraer la mayor cantidad de información posible de un texto (entidades nombradas, taxonomías, relaciones, eventos, sentido) y de traducir el todo a un esquema RDF en donde los datos interpretados son vinculados a una fuente abierta de información como DBpedia.

Originalidad

La principal innovación de nuestra propuesta radica en el hecho de aplicar los últimos avances en procesamiento del lenguaje natural, como la minería semántica y la “lectura a máquina”, al problema real de localizar a los expertos pertenecientes a la diáspora calificada. Si los resultados esperados se realizan, nuestra aportación epistemológica sería doble: por el lado de las tecnologías semánticas daría lugar a una nueva generación de métodos de búsqueda de expertos que se apoyen un poco más en la información biográfica del experto; por el lado de la sociología el resultado produciría una nueva fuente de datos posible para los estudiosos de la migración, no datos de campo sino datos provenientes exclusivamente del web. Más allá del objetivo concreto y particular de cartografiar de manera individual la trayectoria geográfica, profesional y temática de los altamente calificados, sería interesante buscar una correlación estadística robusta entre las tendencias migratorias calculadas a partir de información del web y la tendencia real que se observa en las cifras de campo que reportan la OCDE o la ONU. Este resultado permitiría dar respuesta a una pregunta clásica en métodos numéricos: ¿Hasta qué punto la realidad del web permite responder a cuestiones sobre la realidad en el terreno? [Rogers 2010]

Se hace aquí necesario abrir un paréntesis para mencionar la originalidad de los equipos participantes en el proyecto. El LIPN cuenta con vasta experiencia en métodos que combinan el procesamiento del lenguaje natural y la representación del conocimiento. Esta vocación de construir representaciones semánticas a partir de anotaciones textuales se ha visto reforzada con la incorporación del sistema FRED y de los métodos de machine reading a las actividades cotidianas de investigación del laboratorio. Esta experiencia de traducción de frases cortas no estructuradas en grafos RDF/OWL haciendo uso de fuentes de conocimientos extralingüísticos estructuradas como DBpedia hace posible considerar la aplicación de un tratamiento semántico profundo para aquellos resultados arrojados por el motor de búsqueda Internet y considerados pertinentes para reconstruir la trayectoria profesional de una persona. Además, el laboratorio posee un buen conocimiento de los métodos de producción masiva de búsquedas automáticas en Internet, puesto que la última versión del sistema Unoporuno ha sido también desarrollada por el LIPN. La participación anual a la tarea de similitud semántica de SEMEVAL permite también considerar la integración de cálculos de proximidad semántica en los métodos de clustering de resultados del motor de búsqueda. En cuanto a la pertinencia de las cartografías de las diásporas calificadas, la presencia de un equipo como el Télécom ParisTech se vuelve indispensable. Del lado mexicano, el equipo de investigación del IIMAS posee comprobada experiencia en clasificadores estadísticos, aprendizaje automático y técnicas de clustering, métodos indispensables en la producción de cartografías a partir de los datos biográficos disponibles en Internet. Finalmente, la presencia de Jean Baptiste Meyer y Fernando Lozano Asencio asegura la aplicabilidad multidisciplinaria de nuestros resultados en el campo de la sociología de la migración.

Objetivos

  1. Desarrollar métodos computacionales que permitan cartografiar automáticamente la trayectoria individual de profesionales expertos con la finalidad de localizar aquellos científicos que posean ciertas habilidades y/o conocimientos específicos. Asimismo, la visualización de dicha trayectoria científica, nos permitirá estudiar diversos fenómenos, por ejemplo, el de la migración científica.
  2. Establecer un mecanismo que permita producir datos con anotación semántica mediante una secuencia de tratamiento de información y machine reading que lleve los datos desde la expresión textual basada en lenguaje natural, hasta una representación estructurada basada en el conocimiento (RDF) a través de técnicas de aprendizaje automático y clustering usando el método WSI [Di Marco & Navigli 2013]. Esta representación RDF será la base para cartografiar la trayectoria de los expertos.
  3. Producir cartografías y estadísticas en base a los datos agregados de las cartografías individuales que permitan comparar estas tendencias y calcular el grado de correlación estadística entre las tendencias del web y las provenientes de los datos de campo de la OCDE y la ONU.

Objetivos científicos

  1. Extraer información semántica válida de nombres propios en contextos semánticamente ricos (por ejemplo: una ficha bibliográfica); extraer por ejemplo topónimos, temas de investigación o nombres de organizaciones que, al ser combinados con el nombre de la persona y enviados al motor de búsqueda web, arrojen información biográfica pertinente.
  2. Integrar la herramientas de “lectura a máquina profunda” (deep machine learning) FRED [Etzioni et al. 2006 ; Gangemi et al. 2014] al sistema de búsqueda de la diáspora del conocimiento Unoporuno [Garcia Flores et al. 2012] para extender la funcionalidad de éste último al caso de uso tradicional de la búsqueda de expertos (expert finding) [Bordea & Buitelaar 2012].
  3. Reforzar la recuperación de elementos semánticos a partir de resultados del motor de búsqueda con métodos de aprendizaje automático.
  4. Construir las cartografías individuales de expertos científicos, evaluando los resultados obtenidos en base a los métodos propuestos por CIDESAL.
  5. Cambiar de escala a partir de las cartografías individuales construidas con la finalidad de producir agregados que permitan determinar, por ejemplo cuales fueron los países de preferencia y la tasa de migración de expertos que pertenecen a cierto país de origen.
  6. Calcular la correlación entre las tendencias de los agregados y las cifras poblacionales de organismos internacionales tales como la OCDE y la ONU.

Objetivos de colaboración institucional

  1. Fomentar la cooperación bilateral entre instituciones de educación superior mexicanas y francesas.
  2. Promover la generación de convenios activos entre instituciones que permitan mantener los vínculos de trabajo a largo plazo.
  3. Crear una sinergia entre ambos grupos de investigación, en este campo interdisciplinario, al unir expertos en computación, lingüística computacional y sociología.
  4. Contribuir en la formación de investigadores y doctorantes implicados en el proyecto en métodos de procesamiento de lenguaje natural aplicados a las ciencias humanas.
  5. Incidir en los programas de posgrado en proceso de cooperación, fortaleciendo las líneas de investigación abordadas en los diversos laboratorios

Metodología

Metodología científica

La primera tarea científica consistirá en realizar un estado del arte que revise teorías, métodos y modelos tomando como eje la idea de la cartografía profesional de un experto. Esta revisión bibliográfica permitirá estructurar el discurso científico y definir un plan de trabajo apropiado la espectro científico y el espacio temporal del proyecto.

En segundo lugar implementaremos un código de ética y una guía de transparencia para la manipulación de datos personales que, si bien serán siempre extraídos de fuentes públicamente accesibles en el web, el uso que se le den en este proyecto deberá respetar los criterios de transparencia y respeto a la privacidad.

Posteriormente, haremos una comprobación experimental de las hipótesis y confrontación de los resultados. En particular, usaremos métricas clásicas de evaluación para los sistemas de tratamiento automático de información que incluyen, entre otras, precisión, cobertura, F-Measure, así como medidas de correlación entre los datos obtenidos y aquellos reportados en la literatura. En resumen, nos interesa llevar a cabo un análisis y evaluación capaz de corroborar adecuadamente las hipótesis planteadas.

Como tercer paso, criticaremos los métodos y técnicas desarrolladas, aceptando o rechazando las hipótesis planteadas bajo la explicación de los resultados experimentales y la teoría que subyace a los métodos para la identificación de la trayectoria científico-profesional de expertos, así como al tipo de entidades que utilizan (personas).

Finalmente, se presentarán las ventajas y desventajas de los métodos y técnicas desarrolladas, así como sus posibles aplicaciones en otros tipos de problemas.

En particular, hemos definido las siguientes hipótesis que deben ser evaluadas:

1. Es posible cartografiar la trayectoria científica de un experto, así como su movilidad profesional a partir del análisis de información presente en Internet (estructurada, semi-estructurada y no estructurada).

2. El modelo de cartografía de la diáspora calificada generado a partir del presente proyecto podrá ser usado para ubicar personas de acuerdo a sus conocimientos y habilidades.

3. Existe una correlación entre la movilidad detectada automáticamente por los modelos generados en el presente proyecto y las estadísticas mostradas en cifras poblacionales por organismos internacionales tales como la OCDE y la ONU.

Metodología tecnológica

  1. En primera instancia se constituirá un conjunto de datos de prueba (testbed) constituido por un número de personas suficiente como para poder realizar inferencia estadística.
  2. Se reconstruirá el buscador de personas especializado en movilidad profesional “Unoporuno”, para usarlo como aparato de observación.
  3. Se usará la salida del sistema actual “Unoporuno” como un criterio base (baseline) sobre el cual medir el rendimiento de los nuevos sistemas desarrollados.
  4. Experimentar con métodos del Procesamiento del Lenguaje Natural (PLN) y minería de textos, complementado con técnicas de aprendizaje automático (Machine Reading), a fin de constituir una plataforma de tratamiento automático y masivo de información.
  5. Modelar el campo epistemológico del ámbito de experiencia utilizando los métodos usuales en búsqueda de expertos [Aleman-Meza et al. 2007 ; Li et al. 2006].
  6. Integrar herramientas que traducen sentencias escritas en lenguaje natural a ontologías RDF/OWL con los sistemas de búsqueda de personas a fin de mejorar el proceso de refinamiento de la información de la información asociada a expertos científicos. Este paso presenta un reto mayor, debido a que, por ejemplo, FRED sólo trabaja en lengua inglesa, por lo que habrá que hacer una trasposición de recursos del inglés [Banea et al. 2008] a otras lenguas, o implementar versiones ligeras de FRED.
  7. Evaluar la extracción de los datos mínimos para reconstituir una carrera científica/profesional: nacionalidad, primera formación, formación especializada, ámbito d especialización. Comparar con otras herramientas.
  8. Producir datos en formatos semánticamente estructurados tipo RDF.
  9. Utilizar las herramientas de visualización de datos (por ejemplo, Cytoscape o Cartodb ) para cartografiar la movilidad científica y profesional de los expertos.
  10. Generar datos estadísticos y mapas a gran escala a partir de las cartografías generadas.
  11. Calcular la correlación entre las cifras obtenidas por el sistema a partir del web y aquellas mostradas en cifras poblacionales por organismos internacionales tales como la OCDE y la ONU.

Referencias bibliográficas

%%[%%Aleman-Meza et al. 2007%%]%% Boanerges Aleman-Meza , Uldis Bojars , Harold Boley , John G. Breslin , Malgorzata Mochol , Lyndon Jb Nixon , Axel Polleres , Anna V. Zhdanova. Combining RDF vocabularies for expert finding. In Proceedings of the 4th European Semantic Web Conference (ESWC2007), number 4519 in Lecture Notes in Computer Science, (2007).

%%[%%Banea et al. 2008%%]%% Carmen Banea, Rada Mihalcea, Janyce Wiebe and Samer Hassan, Multilingual Subjectivity Analysis Using Machine Translation, in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2008), Honolulu, Hawaii, October 2008.

%%[%%CIDESAL, 2014%%]%% CIDESAL : Construction d’Incubateurs des Diasporas du Savoir en Amérique Latine.

Rapport final d’activité. EuroAid/Commission Européenne, 2014 (in press)

%%[%%Bordea & Buitelaar 2012%%]%% Georgeta Bordea, Paul Buitelaar. Expertise Mining. Proceedings of the 21st National Conference on Artificial Intelligence and Cognitive Science, Galway, Ireland, 2010.

%%[%%Di Marco & Navigli 2013%%]%% Antonio Di Marco, Roberto Navigli: Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction. Computational Linguistics 39(3): 709-754 (2013)

%%[%%Diminescu 2008%%]%% Diminescu D. The connected migrant: an epistemological manifesto. Social Science Information (December 2008) vol. 47 no. 4 565-579

%%[%%Etzioni et al. 2006%%]%% Oren Etzioni, Michele Banko and Michael J Cafarella. Machine Reading. AAAI Conference on Artificial Intelligence, 2006.

%%[%%Gangemi et al. 2014%%]%% Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero. Frame-based detection of opinion holders and topics: a model and a tool. IEEE Computational Intelligence, 9(1), 2014

%%[%%Garcia Flores et al. 2012%%]%% J. J. Garcia Flores, Pierre Zwigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, pp. 180-191.

%%[%%Li et al. 2006%%]%% Jie Li, Harold Boley, Virendrakumar C. Bhavsar, and Jing Mei. Expert Finding for eCollaboration Using FOAF with RuleML Rules. Montreal Conference on eTechnologies MCTECH, (May 17, 2006)

%%[%%Monaghan|et al. 2010%%]%% Fergal Monaghan, Georgeta Bordea, Krystian Samp, Paul Buitelaar (2010)

Exploring Your Research: Sprinkling some Saffron on Semantic Web Dog Food, 9th International Semantic Web Conference (ISWC), Semantic Web Challenge, Shanghai, China.

%%[%%OECD, 2002%%]%% International Mobility of the Highly Skilled. Policy Brief, OECD, 2002, Paris.

%%[%%Rogers 2010%%]%% Richard Rogers, “Internet Research: The Question of Method,” Journal of Information Technology and Politics 7 (2010): 241-260.

%%[%%Shokhenmayer 2010%%]%% Evgeny Shokhenmayer Cartography in onomastic research / TRANS vol.18; Virtual INST World Conference. CCKS: Cities, Cultures, Knowledge Societies. Section ‘Cartographic Science as a Reflection of Knowledge Societies and Cultures’, 2010

%%[%%Tummarello et al. 2010%%]%% Giovanni Tummarello, Richard Cyganiak, Michele Catasta, Szymon Danielczyk, Renaud Delbru, Stefan Decker “Sig.ma: Live views on the Web of Data”, Journal of Web Semantics: Science, Services and Agents on the World Wide Web - Volume 8, Issue 4, November 2010, Pages 355-364

%%[%%Yates et al. 2007%%]%% Alexander Yates, Michael Cafarella, Michele Banko, Oren Etzioni, Matthew Broadhead, and Stephen Soderland. 2007. TextRunner: open information extraction on the web. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations (NAACL-Demonstrations '07)

Calendarización de las actividades del proyecto (cronograma)

Año Actividades Objetivo
1
  • Estado del arte
  • Testbed a partir del corpus CIDESAL (Conacyt + Conicet + Colciencias)
  • Actualización de Unoporuno
  • Implementación local de FRED
  • Guía ética y código de transparencia para la manipulación de datos biográficos provenientes del web
  • Casos de uso
Desarrollar un marco teórico, metodológico, ético y tecnológico de análisis y evaluación de la calidad de datos del proyecto.
2
  • Clustering de los resultados de Unoporuno usando WSI (Word Sense Induction)
  • Ontología de ámbitos de experiencia/ compilation de recursos epistemológicos (léxicos, diccionarios, tesauros)
  • Anotación de entidades nombradas + evaluación
  • Extracción de eventos + evaluación
  • Gramática formal para el reconocimiento de nombres de personas en español, francés, inglés y alemán + evaluación
Identificar la metodología adecuada (incluyendo herramientas y técnicas) para usar métodos de minería semántica que permitan extraer información de calidad/relevante para el dominio en estudio de este proyecto.
3
  • Integración Unoporuno+FRED
  • Algoritmos de aprendizaje automático para la clasificación de resultados del motor de búsqueda
  • Algoritmos de aprendizaje automático para la clasificación de las trayectorias profesionales
  • Primeras cartografías individuales
Construcción de las primeras cartografías individuales como consecuencia de la integración entre la herramienta de machine reading FRED y la anotación semántica de los resultados del motor de búsqueda. Desarrollo de algoritmos de aprendizaje automático (y en su defecto aprendizaje profundo) para la clasificación del contenido informacional de la anotación semántica así como de la trayectoria profesional de los miembros de la diáspora altamente calificada.
4
  • Cartografías agregadas
  • Estadísticas agregadas
  • Correlación entre datos provenientes del web y datos de campo (OCDE)
  • Evaluación
Cartografías y estadísticas agregadas. Correlación web vs. campo

Acciones

Año Acciones
1
  • Misión de de 15 días para 2 investigadores mexicanos en Francia.
  • Misión de 15 días para 2 investigadores franceses en México.
  • Misión de un mes para un doctorando francés en México
  • Publicación conjunta de un artículo de posicionamiento del tema.
2
  • Misión de de 15 días para 2 investigadores mexicanos en Francia.
  • Misión de 15 días para 2 investigadores franceses en México.
  • Publicación conjunta de resultados preliminares
3
  • Misión de de 15 días para 2 investigadores mexicanos en Francia.
  • Misión de 15 días para 2 investigadores franceses en México.
  • Publicación conjunta de resultados preliminares
4
  • Misión de de 15 días para 2 investigadores mexicanos en Francia.
  • Misión de 15 días para 2 investigadores franceses en México.
  • Organización de un congreso de presentación de resultados y cierre
  • Participación conjunta en el tribunal de titulación para el estudiante de doctorado financiado por CONACYT
  • Publicación conjunta de los resultados del proyecto en una revista indizada JCR

Resultados esperados y beneficios globales del proyecto

Resultados esperados

Impacto institucional y social de los resultados alcanzados en el proyecto

El desarrollo de una cartografía que permita visualizar la trayectoria profesional de la diáspora calificada permitiría a los organismos que financian la investigación tener una idea más clara del grado de emigración y el grado de retorno de los exbecarios. Los países en vías de desarrollo contarían con un método relativamente menos costoso que los censos o las encuestas de campo para localizar su talento. Las pequeñas y medianas empresas mexicanas podrían contar con una herramienta informática que les permita vincularse con la diáspora altamente calificada, de forma y manera que esta podría vincularse con y movilizarse por el desarrollo nacional. En términos institucionales, la integración de un proyecto de investigación que sería desarrollado de manera conjunta entre nuestra institución y un centro de investigación francés sería de mucho beneficio puesto que permitiría intercambiar conocimientos, herramientas y recursos que redundaría sin duda en un avance académico y de investigación importante. Finalmente, dado que se contempla la formación doctoral de al menos un estudiante mexicano, este tendrá una incorporación a futuro en México, lo cual redundaría también en un impacto a nivel social.

Participación de cada investigador y producto de su trabajo

Año Actividades Investigador
1
  1. Estado del arte
  2. Testbed a partir del corpus CIDESAL (Conacyt + Conicet + Colciencias)
  3. Actualización de Unoporuno
  4. Implementación local de FRED
  5. Guía ética y código de transparencia para la manipulación de datos biográficos provenientes del web
  6. Casos de uso
  • Doctorando beca Conacyt
  • Ehab Hassan
  • Jorge García Flores
  • Dana Diminescu
  • Davide Buscaldi
  • Iván Vladimir Meza R.
  • Gibrán Fuentes Pineda
  • Aldo Gangemi
  • Luis A. Pineda Cortés
  • Jean Baptiste Meyer
  • Fernando Lozano Ascencio
2
  1. Clustering de los resultados de Unoporuno usando WSI (Word Sense Induction)
  2. Ontología de ámbitos de experiencia/ compilation de recursos epistemológicos (léxicos, diccionarios, tesauros)
  3. Anotación de entidades nombradas + evaluación
  4. Extracción de eventos + evaluación
  5. Gramática formal para el reconocimiento de nombres de personas en español, francés, inglés y alemán + evaluación
  • Doctorando beca Conacyt
  • Jorge García Flores
  • Iván Vladimir Meza R.
  • Thierry Charnois
  • Davide Buscaldi
  • Luis A. Pineda C.
3
  1. Integración Unoporuno+FRED
  2. FRED multilingüe
  3. Producción de RDF + evaluación
  4. Algoritmos de aprendizaje automático para la clasificación de resultados del motor de búsqueda
  5. Algoritmos de aprendizaje automático para la clasificación de las trayectorias profesionales
  6. Validación sociológica de las primeras cartografías individuales
  • Doctorando beca Conacyt
  • Jorge García Flores
  • Aldo Gangemi
  • Dana Diminescu
  • Jean-Baptiste Meyer
  • Gibrán Fuentes Pineda
  • Iván Vladimir Meza R.
  • Davide Buscaldi
4
  1. Cartografías y estadísticas agregadas.
  2. Correlación web vs. campo
  3. Correlación entre datos provenientes del web y datos de campo (OCDE)
  4. Evaluación
  • Doctorando beca Conacyt
  • Jorge García Flores
  • Dana Diminescu
  • Jean-Baptiste Meyer
  • Davide Buscaldi
  • Iván Vladimir Meza R.
  • Fernando Lozano Ascencio
  • Luis A. Pineda C.

Actividades del estudiante de doctorado a realizar en el proyecto y plan de trabajo del mismo

Año Actividades Objetivo
1
  • Estudio del estado del arte sobre las herramientas actuales en expert finding.
  • Estudio de técnicas para la extracción terminológica en dominios específicos y ontologías.
  • Análisis de representaciones textuales efectivos en la extracción de información.
Identificar los conceptos teóricos necesarios para el desarrollo del proyecto en cuestión.
2
  • Desarrollo de una metodología para la minería semántica en el dominio específico del problema a tratar.
  • Integración entre FRED y Unoporuno.
Identificar la metodología adecuada (incluyendo herramientas y técnicas) para usar métodos de minería de textos que permitan extraer información de calidad/relevante para el dominio en estudio de este proyecto.
3
  • Desarrollo de las herramientas de cartografía para la visualización de las trayectorias profesionales individuales.
  • Cytoscape.
Construir una herramienta de visualización cartográfica biográfica para el dominio de las diásporas calificadas.
4
  • Análisis cualitativo de la agregación cartográfica y estadística.
Evaluar la exactitud de las trayectorias profesionales construidas.

Antecedentes de cooperación

  1. Davide Buscaldi (LIPN), Jorge Garcia Flores (LIPN) Iván Vladimir Meza (IIMAS) participaron juntos en la campaña de evaluación semántica Semeval 2015 (tarea: similaridad semántica entre frases), trabajo que dio lugar a una publicación conjunta en las actas del congreso.
  2. Davide Buscaldi (LIPN) e Iván Vladimir Meza (IIMAS) participaron juntos en la tarea de perfilado de autor para la campaña PAN-CLEF 2015, trabajo que dio lugar a una publicación conjunta en las actas del congreso.
  3. Aldo Gangemi (LIPN), Jorge Garcia Flores (LIPN), Iván Vladimir Meza (IIMAS) y Luis A. Pineda Cortés (IIMAS) redactaron conjuntamente el proyecto Generación de relatos de experiencias espaciales en robots de servicio por extracción de conocimiento a partir de textos, que acaba de ser seleccionado en la convocatoria de Apoyo a pequeñas inciativas de investigación, animación y transferencia (PIRAT 2015) de la Agencia Universitaria de la Francofonía.

Publicaciones

Equipo francés

Aldo Gangemi

Dana Diminescu

Davide Buscaldi

Jorge J. Garcia Flores

Jean Baptiste Meyer

Thierry Charnois

Equipo mexicano

Iván Vladimir Meza R.

Luis A. Pineda C.

Fernando Lozano Ascencio

Gibrán Fuentes Pineda

Referencias

Pierre Zweigenbaum

pz@limsi.fr
(+33) 01 69 85 80 04
LIMSI-CNRS BP 133, F-91403 ORSAY CEDEX

Christian Licoppe

licoppe@enst.fr
(+33)1 45 81 81 16
ENST, Département EGSH
46 rue Barrault, 75634 Paris Cedex 13

Liens

ToDo

  1. To confirm the intrest of all the consortium members
  2. To finish the french document and start looking for the support letter from BRED
  3. To ask for the mexican and french team CV
  4. To start filling the Conacyt online document