Cartografía de la diáspora calificada aplicando técnicas de minería semántica a resultados de búsquedas en la web
Área del conocimiento
Ciencias naturales, exactas y de la computación
Ciencias sociales
Palabras clave
búsqueda de expertos, migración altamente calificada, minería semántica, recuperación de información
Resumen del proyecto
La localización de los emigrantes altamente calificados representa un problema crucial para los países en vías de desarrollo. Además de las técnicas tradicionalmente utilizadas en sociología de la migración, como las encuestas de campo o los censos poblacionales, una solución atractiva para este problema parte de la utilización de técnicas computacionales de minería semántica de textos con la finalidad de cartografiar la trayectoria profesional de los miembros de la diáspora altamente calificada a partir de información publicada en la web. Esta tarea representa un reto científico en diversas áreas del procesamiento del lenguaje natural: búsqueda y recuperación de información biográfica; desambiguación de nombres propios, términos científicos y topónimos; cálculo de proximidad semántica entre los fragmentos cortos de texto característicos de los motores de búsqueda, clasificación terminológica por disciplina del conocimiento y extracción de eventos. Nuestro objetivo es doble: por un lado cartografiar de manera individual la trayectoria profesional (geográfica y temática) de los miembros de la diáspora altamente calificada a partir de la escasa información disponible en bases de datos institucionales (como la base de ex becarios del CONACYT) y, por otro lado, permitir la búsqueda de expertos pertenecientes a la diáspora altamente calificada a partir de consultas por palabras clave (ejemplo: buscar un experto en frenado por corrientes de Foucault, de nacionalidad mexicana, de preferencia formado en Francia). La experiencia conjunta de los equipos de investigación asociados al proyecto ofrece un amplio abanico metodológico para cimentar la colaboración: en principio conformaremos un marco experimental con datos provenientes de fuentes institucionales (CONACYT, CONICET, COLCIENCIAS) así como de proyectos de investigación en sociología de las diásporas calificadas (CIDESAL). A continuación estudiaremos de manera crítica los métodos estadísticos y lingüísticos apropiados para llevar a cabo la minería semántica de los resultados de un motor de búsqueda. A partir de este estudio implementaremos algoritmos de clasificación de grupos de resultados (clustering) y de desambiguación por medio de WSI (Word Sense Induction) con la finalidad de extraer las relaciones semánticas entre un nombre propio, las instituciones, los lugares geográficos y las fechas que conforman una trayectoria profesional. De particular importancia será la caracterización epistemológica de las áreas de experiencia utilizando ontologías del conocimiento y cálculos de proximidad semántica. El resultado de este conjunto será un grafo RDF construido por medio de técnicas de machine reading, en donde dichas relaciones semánticas sean representadas. Este grafo servirá de base para la generación de la cartografía. El fin último de nuestra propuesta consiste en sentar las bases metodológicas para una nueva generación de herramientas de búsqueda de expertos sensibles al contexto biográfico y geográfico propio de cada persona.
Instituciones Participantes
En México
Universidad Nacional Autónoma de México
Instituto de Investigación en Matemáticas Aplicadas y Sistemas (IIMAS)
Centro Regional de Investigaciones Multidisciplinarias (CRIM)
En Francia
Université Paris 13
ENST Télécom Paris
Institut de recherche pour le développement
Responsables del proyecto
En Francia
En México
Vínculos administrativos
México
ANUIES
Cindy Griselle Gasca Martínez
Asistente administrativo de relaciones internacionales
CONACYT
Lic. Dafne Jerez Saldaña
Subdirectora de Estrategias de Cooperación Bilateral y Multilateral
Dirección Adjunta de Planeación y Cooperación Internacional
Francia
Lista de investigadores participantes en el proyecto
En México
Nombre | Categoría | Máximo grado académico | Unidad de adscripción | Actividad a realizar |
Luis A. PINEDA CORTES | Doctorado, University of Edinburgh, 1990 | IIMAS/UNAM | Investigador Titular B (SNI nivel II) | Desarrollo y validación del modelo semántico |
Ivan Vladimir MEZA RUIZ | Doctorado, University of Edinburgh, 2009 | IIMAS/UNAM | Técnico Académico | Adaptación de algoritmos de aprendizaje automático |
Fernando LOZANO ASCENCIO | Doctorado, University of Texas | CRIM/UNAM | Investigador Titular C (SNI Nivel II) | Validación de las hipótesis sociológicas y la utilidad de la plataforma |
Gibrán FUENTES PINEDA | Doctorado, University of Electro-Communications, Japón | IIMAS/UNAM | Investigador Asociado | Aprendizaje automático |
En Francia
Nombre | Categoría | Máximo grado académico | Unidad de adscripción | Actividad a realizar |
Aldo GANGEMI | Profesor investigador titular | Master en filosofía, Sapienza, 1989 | LIPN/Université Paris 13 | Machine Reading, RDF/OWL, Web Semántica, FRED. |
Thierry CHARNOIS | Profesor investigador titular | Doctorado, LIPN, 1999 | LIPN/Université Paris 13 | Extracción de patrones biográficos |
Davide BUSCALDI | Maestro investigador titular | Doctorado, Politécnica de Valencia, 2010 | LIPN/Université Paris 13 | Proximidad semántica, extracción de información. |
Jorge GARCIA FLORES | Ingeniero investigador titular | Doctorado, Paris-Sorbonne, 2007 | LIPN/Université Paris 13 | Anotación de resultados de motores de búsqueda, gramáticas formales para el reconocimiento de nombres propios. |
Ehab HASSAN | Doctorando | Maestría, Paris Dauphine,2011 | LIPN/Université Paris 13 | Extracción de eventos temporales |
Dana DIMINESCU | Maestría, ENST | ENST – Télécom ParisTech | Maestra investigadora titular | Visualización de cartografías y validación sociológica |
Jean-Baptiste MEYER | Doctorado, ENSMP, 1992 | Institut de recherche pour le développement (IRD) | Director de investigación titular | Validación sociológica de los resultados |
Medios
Medios solicitados en el programa SEP-CONACYT-ANUIES para el primer año del proyecto
Francia -> México
Misiones solicitadas para el 1er año del proyecto para investigadores con doctorado confirmados, mencionando a los beneficiarios y la duración (máximo 15 días):
Misiones para dos investigadores franceses en México
Davide Buscaldi, misión de 15 días
Jorge Garcia Flores, misión de 15 días
Estancias (de 1 a 2 meses) para investigadores en formación (doctorandos)
México --> Francia
Misiones solicitadas para el 1er año del proyecto para investigadores con doctorado confirmados, mencionando a los beneficiarios y la duración (máximo 15 días):
Luis A. Pineda Cortés, misión de 15 días
Iván Vladimir Meza Ruiz, misión de 15 días
Estamos buscando un candidato apto para irse a Francia a estudiar el doctorado.
Convocatoria aquí.
Descripción detallada del proyecto
Identificación del tema y estado del conocimiento
La localización de la emigración altamente calificada es un problema de vital importancia para los países en vías de desarrollo. Más allá de las fuentes demográficas, como los censos de población, las encuestas de campo sobre población activa, las fuentes gubernamentales (registros de permisos de trabajo para extranjeros, registros de visados) y las estadísticas de la [OCDE 2002], una solución atractiva para este problema se apoya en técnicas computacionales de recuperación semántica de información con el objetivo de cartografiar la trayectoria profesional de los miembros de la diáspora del conocimiento exclusivamente a partir de información publicada en Internet.
La primera aplicación de tecnologías del lenguaje humano al campo de la sociología de la migración fue el sistema Unoporuno [Garcia Flores et al. 2012], desarrollado en el marco del proyecto CIDESAL . Este sistema permite clasificar automáticamente a potenciales miembros de la diáspora altamente calificada de acuerdo a su movimiento migratorio: 1) un movimiento lineal (se van del país para estudiar o trabajar y ya no regresan); 2) un movimiento circular (tras los estudios, regresan a su país); 3) ausencia de movimiento (la persona nunca sale de su país de origen). Unoporuno recibe de entrada una lista de nombres en contexto (por ejemplo: un conjunto de fichas bibliográficas). A partir de este conjunto de datos, Unoporuno hace minería del web con la finalidad de clasificar a las personas en cuestión por medio de procesos de aprendizaje automático según su movimiento. Gracias a los socios del proyecto CIDESAL, se logró reunir una base de aproximadamente 13000 miembros potenciales de la diáspora altamente calificada. Los registros de esta base provienen tanto de una aspiración de la base de publicaciones científicas del ISI Web of Science como de bases de datos de exbecarios que los organismos científicos nacionales lationamericanos proporcionaron: CONICET en Argentina, COLCIENCIAS en Colombia, SNI en Uruguay y CONACYT en México [CIDESAL 2014]. El principal límite de Unoporuno es que no hay recuperación alguna de información semántica, sino solamente un proceso de clasificación automática por medio de un análisis rasgos semánticos de los resultados de una consulta automática en un motor de búsqueda.
En cuanto a al hecho de cartografiar a la diáspora utilizando los datos disponibles en Internet, los avances más recientes fueron llevados a cabo durante el proyecto e-Diáspora Atlas o “atlas de la diáspora electrónica”. Este proyecto consistió en censar y analizar algo más de 8000 sitios web creados o frecuentados por los emigrantes del mundo entero. A partir de este análisis fueron producidos mapas de hipervínculos que caracterizaban a las diásporas nacionales según la topología creada sus hipervínculos [Diminescu 2008].
El sistema Name-sor es otro ejemplo significativo de aplicación de técnicas cartográficas al análisis de los movimientos migratorios. Este sistema se apoya en un análisis onomástico del origen geográfico de los nombres propios de los usuarios de Twitter [Shokhenmayer 2010] con el objetivo de producir un mapa de la densidad de las distintas diásporas nacionales representadas por los usuarios de esta red social.
Curiosamente ningún sistema de búsqueda de expertos (expert finding) ha sido nunca aplicado a la búsqueda de emigrantes altamente calificados. Esto se debe quizás a que estos sistemas no suelen tomar en cuenta la información biográfica de los expertos, puesto que sus esfuerzos metodológicos se concentran en recuperar relaciones epistemológicas estables entre un experto y su ámbito de experiencia (o dominio). A nosotros nos parece que el pasaje entre una búsqueda de expertos y una búsqueda de personas en Internet (emigrantes o no) forma parte de un continuo, y que las herramientas de búsqueda de expertos ganarían precisión si tomaran en cuenta el contexto biográfico de los expertos-objeto de su búsqueda (el país de origen, el país de formación, la trayectoria profesional). Y, de manera recíproca, el ámbito de especialidad o la pura profesión podría ser considerado como un valioso elemento de desambiguación de homónimos en las tareas de búsqueda de personas por Internet. Dos aplicaciones de búsqueda de expertos destacan en el panorama de esta tarea: Saffron [Monaghan et al. 2010] y Sig.ma [Tummarello et al. 2010]. Saffron aplica el procesamiento del lenguaje natural a la anotación de páginas web pertinentes para la búsqueda de expertos, mientras que Sig.ma explota los metadatos de las mismas. Ambos hacen abundante uso de las representaciones semánticas en RDF para caracterizar el horizonte epistemológico del ámbito de especialidad de los expertos.
Los mejores resultados reportados en la literatura en lo que a minería semántica de resultados de motores de búsqueda se refiere fueron obtenidos con el método de inducción del sentido de las palabras (Word Sense Induction o WSI) [Di Marco & Navigli 2013], que se apoya en un análisis de capas de coocurrencia léxica y en el uso de DBpedia y Babelnet para desambiguar y agrupar los resultados.
En cuanto a la minería de relaciones semánticas necesarias para reconstruir la trayectoria profesional de una persona, diversas herramientas han sido propuestas. Citaremos aquí dos de ellas: Text Runner [Yates et al. 2007] recupera información de un texto por medio de una cadena de procesamiento que incluye el análisis morfosintáctico de las frases que componen el texto, el reconocimiento de sintagmas nominales y la producción de un conjunto de binomios representativos de las relaciones semánticas en el texto. En la misma línea, FRED [Gangemi et al. 2014] es una herramienta de “lectura a máquina” (machine reading) capaz de extraer la mayor cantidad de información posible de un texto (entidades nombradas, taxonomías, relaciones, eventos, sentido) y de traducir el todo a un esquema RDF en donde los datos interpretados son vinculados a una fuente abierta de información como DBpedia.
Originalidad
La principal innovación de nuestra propuesta radica en el hecho de aplicar los últimos avances en procesamiento del lenguaje natural, como la minería semántica y la “lectura a máquina”, al problema real de localizar a los expertos pertenecientes a la diáspora calificada. Si los resultados esperados se realizan, nuestra aportación epistemológica sería doble: por el lado de las tecnologías semánticas daría lugar a una nueva generación de métodos de búsqueda de expertos que se apoyen un poco más en la información biográfica del experto; por el lado de la sociología el resultado produciría una nueva fuente de datos posible para los estudiosos de la migración, no datos de campo sino datos provenientes exclusivamente del web. Más allá del objetivo concreto y particular de cartografiar de manera individual la trayectoria geográfica, profesional y temática de los altamente calificados, sería interesante buscar una correlación estadística robusta entre las tendencias migratorias calculadas a partir de información del web y la tendencia real que se observa en las cifras de campo que reportan la OCDE o la ONU. Este resultado permitiría dar respuesta a una pregunta clásica en métodos numéricos: ¿Hasta qué punto la realidad del web permite responder a cuestiones sobre la realidad en el terreno? [Rogers 2010]
Se hace aquí necesario abrir un paréntesis para mencionar la originalidad de los equipos participantes en el proyecto. El LIPN cuenta con vasta experiencia en métodos que combinan el procesamiento del lenguaje natural y la representación del conocimiento. Esta vocación de construir representaciones semánticas a partir de anotaciones textuales se ha visto reforzada con la incorporación del sistema FRED y de los métodos de machine reading a las actividades cotidianas de investigación del laboratorio. Esta experiencia de traducción de frases cortas no estructuradas en grafos RDF/OWL haciendo uso de fuentes de conocimientos extralingüísticos estructuradas como DBpedia hace posible considerar la aplicación de un tratamiento semántico profundo para aquellos resultados arrojados por el motor de búsqueda Internet y considerados pertinentes para reconstruir la trayectoria profesional de una persona. Además, el laboratorio posee un buen conocimiento de los métodos de producción masiva de búsquedas automáticas en Internet, puesto que la última versión del sistema Unoporuno ha sido también desarrollada por el LIPN. La participación anual a la tarea de similitud semántica de SEMEVAL permite también considerar la integración de cálculos de proximidad semántica en los métodos de clustering de resultados del motor de búsqueda. En cuanto a la pertinencia de las cartografías de las diásporas calificadas, la presencia de un equipo como el Télécom ParisTech se vuelve indispensable. Del lado mexicano, el equipo de investigación del IIMAS posee comprobada experiencia en clasificadores estadísticos, aprendizaje automático y técnicas de clustering, métodos indispensables en la producción de cartografías a partir de los datos biográficos disponibles en Internet. Finalmente, la presencia de Jean Baptiste Meyer y Fernando Lozano Asencio asegura la aplicabilidad multidisciplinaria de nuestros resultados en el campo de la sociología de la migración.
Objetivos
Desarrollar métodos computacionales que permitan cartografiar automáticamente la trayectoria individual de profesionales expertos con la finalidad de localizar aquellos científicos que posean ciertas habilidades y/o conocimientos específicos. Asimismo, la visualización de dicha trayectoria científica, nos permitirá estudiar diversos fenómenos, por ejemplo, el de la migración científica.
Establecer un mecanismo que permita producir datos con anotación semántica mediante una secuencia de tratamiento de información y machine reading que lleve los datos desde la expresión textual basada en lenguaje natural, hasta una representación estructurada basada en el conocimiento (RDF) a través de técnicas de aprendizaje automático y clustering usando el método WSI [Di Marco & Navigli 2013]. Esta representación RDF será la base para cartografiar la trayectoria de los expertos.
Producir cartografías y estadísticas en base a los datos agregados de las cartografías individuales que permitan comparar estas tendencias y calcular el grado de correlación estadística entre las tendencias del web y las provenientes de los datos de campo de la OCDE y la ONU.
Objetivos científicos
Extraer información semántica válida de nombres propios en contextos semánticamente ricos (por ejemplo: una ficha bibliográfica); extraer por ejemplo topónimos, temas de investigación o nombres de organizaciones que, al ser combinados con el nombre de la persona y enviados al motor de búsqueda web, arrojen información biográfica pertinente.
Integrar la herramientas de “lectura a máquina profunda” (deep machine learning) FRED [Etzioni et al. 2006 ; Gangemi et al. 2014] al sistema de búsqueda de la diáspora del conocimiento Unoporuno [Garcia Flores et al. 2012] para extender la funcionalidad de éste último al caso de uso tradicional de la búsqueda de expertos (expert finding) [Bordea & Buitelaar 2012].
Reforzar la recuperación de elementos semánticos a partir de resultados del motor de búsqueda con métodos de aprendizaje automático.
Construir las cartografías individuales de expertos científicos, evaluando los resultados obtenidos en base a los métodos propuestos por CIDESAL.
Cambiar de escala a partir de las cartografías individuales construidas con la finalidad de producir agregados que permitan determinar, por ejemplo cuales fueron los países de preferencia y la tasa de migración de expertos que pertenecen a cierto país de origen.
Calcular la correlación entre las tendencias de los agregados y las cifras poblacionales de organismos internacionales tales como la OCDE y la ONU.
Objetivos de colaboración institucional
Fomentar la cooperación bilateral entre instituciones de educación superior mexicanas y francesas.
Promover la generación de convenios activos entre instituciones que permitan mantener los vínculos de trabajo a largo plazo.
Crear una sinergia entre ambos grupos de investigación, en este campo interdisciplinario, al unir expertos en computación, lingüística computacional y sociología.
Contribuir en la formación de investigadores y doctorantes implicados en el proyecto en métodos de procesamiento de lenguaje natural aplicados a las ciencias humanas.
Incidir en los programas de posgrado en proceso de cooperación, fortaleciendo las líneas de investigación abordadas en los diversos laboratorios
Metodología
Metodología científica
La primera tarea científica consistirá en realizar un estado del arte que revise teorías, métodos y modelos tomando como eje la idea de la cartografía profesional de un experto. Esta revisión bibliográfica permitirá estructurar el discurso científico y definir un plan de trabajo apropiado la espectro científico y el espacio temporal del proyecto.
En segundo lugar implementaremos un código de ética y una guía de transparencia para la manipulación de datos personales que, si bien serán siempre extraídos de fuentes públicamente accesibles en el web, el uso que se le den en este proyecto deberá respetar los criterios de transparencia y respeto a la privacidad.
Posteriormente, haremos una comprobación experimental de las hipótesis y confrontación de los resultados. En particular, usaremos métricas clásicas de evaluación para los sistemas de tratamiento automático de información que incluyen, entre otras, precisión, cobertura, F-Measure, así como medidas de correlación entre los datos obtenidos y aquellos reportados en la literatura. En resumen, nos interesa llevar a cabo un análisis y evaluación capaz de corroborar adecuadamente las hipótesis planteadas.
Como tercer paso, criticaremos los métodos y técnicas desarrolladas, aceptando o rechazando las hipótesis planteadas bajo la explicación de los resultados experimentales y la teoría que subyace a los métodos para la identificación de la trayectoria científico-profesional de expertos, así como al tipo de entidades que utilizan (personas).
Finalmente, se presentarán las ventajas y desventajas de los métodos y técnicas desarrolladas, así como sus posibles aplicaciones en otros tipos de problemas.
En particular, hemos definido las siguientes hipótesis que deben ser evaluadas:
1. Es posible cartografiar la trayectoria científica de un experto, así como su movilidad profesional a partir del análisis de información presente en Internet (estructurada, semi-estructurada y no estructurada).
2. El modelo de cartografía de la diáspora calificada generado a partir del presente proyecto podrá ser usado para ubicar personas de acuerdo a sus conocimientos y habilidades.
3. Existe una correlación entre la movilidad detectada automáticamente por los modelos generados en el presente proyecto y las estadísticas mostradas en cifras poblacionales por organismos internacionales tales como la OCDE y la ONU.
Metodología tecnológica
En primera instancia se constituirá un conjunto de datos de prueba (testbed) constituido por un número de personas suficiente como para poder realizar inferencia estadística.
Se reconstruirá el buscador de personas especializado en movilidad profesional “Unoporuno”, para usarlo como aparato de observación.
Se usará la salida del sistema actual “Unoporuno” como un criterio base (baseline) sobre el cual medir el rendimiento de los nuevos sistemas desarrollados.
Experimentar con métodos del Procesamiento del Lenguaje Natural (PLN) y minería de textos, complementado con técnicas de aprendizaje automático (Machine Reading), a fin de constituir una plataforma de tratamiento automático y masivo de información.
Modelar el campo epistemológico del ámbito de experiencia utilizando los métodos usuales en búsqueda de expertos [Aleman-Meza et al. 2007 ; Li et al. 2006].
Integrar herramientas que traducen sentencias escritas en lenguaje natural a ontologías RDF/OWL con los sistemas de búsqueda de personas a fin de mejorar el proceso de refinamiento de la información de la información asociada a expertos científicos. Este paso presenta un reto mayor, debido a que, por ejemplo, FRED sólo trabaja en lengua inglesa, por lo que habrá que hacer una trasposición de recursos del inglés [Banea et al. 2008] a otras lenguas, o implementar versiones ligeras de FRED.
Evaluar la extracción de los datos mínimos para reconstituir una carrera científica/profesional: nacionalidad, primera formación, formación especializada, ámbito d especialización. Comparar con otras herramientas.
Producir datos en formatos semánticamente estructurados tipo RDF.
Utilizar las herramientas de visualización de datos (por ejemplo, Cytoscape o Cartodb ) para cartografiar la movilidad científica y profesional de los expertos.
Generar datos estadísticos y mapas a gran escala a partir de las cartografías generadas.
Calcular la correlación entre las cifras obtenidas por el sistema a partir del web y aquellas mostradas en cifras poblacionales por organismos internacionales tales como la OCDE y la ONU.
Referencias bibliográficas
%%[%%Aleman-Meza et al. 2007%%]%% Boanerges Aleman-Meza , Uldis Bojars , Harold Boley , John G. Breslin , Malgorzata Mochol , Lyndon Jb Nixon , Axel Polleres , Anna V. Zhdanova. Combining RDF vocabularies for expert finding. In Proceedings of the 4th European Semantic Web Conference (ESWC2007), number 4519 in Lecture Notes in Computer Science, (2007).
%%[%%Banea et al. 2008%%]%% Carmen Banea, Rada Mihalcea, Janyce Wiebe and Samer Hassan, Multilingual Subjectivity Analysis Using Machine Translation, in Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP 2008), Honolulu, Hawaii, October 2008.
%%[%%CIDESAL, 2014%%]%% CIDESAL : Construction d’Incubateurs des Diasporas du Savoir en Amérique Latine.
Rapport final d’activité. EuroAid/Commission Européenne, 2014 (in press)
%%[%%Bordea & Buitelaar 2012%%]%% Georgeta Bordea, Paul Buitelaar. Expertise Mining. Proceedings of the 21st National Conference on Artificial Intelligence and Cognitive Science, Galway, Ireland, 2010.
%%[%%Di Marco & Navigli 2013%%]%% Antonio Di Marco, Roberto Navigli: Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction. Computational Linguistics 39(3): 709-754 (2013)
%%[%%Diminescu 2008%%]%% Diminescu D. The connected migrant: an epistemological manifesto. Social Science Information (December 2008) vol. 47 no. 4 565-579
%%[%%Etzioni et al. 2006%%]%% Oren Etzioni, Michele Banko and Michael J Cafarella. Machine Reading. AAAI Conference on Artificial Intelligence, 2006.
%%[%%Gangemi et al. 2014%%]%% Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero. Frame-based detection of opinion holders and topics: a model and a tool. IEEE Computational Intelligence, 9(1), 2014
%%[%%Garcia Flores et al. 2012%%]%% J. J. Garcia Flores, Pierre Zwigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, pp. 180-191.
%%[%%Li et al. 2006%%]%% Jie Li, Harold Boley, Virendrakumar C. Bhavsar, and Jing Mei. Expert Finding for eCollaboration Using FOAF with RuleML Rules. Montreal Conference on eTechnologies MCTECH, (May 17, 2006)
%%[%%Monaghan|et al. 2010%%]%% Fergal Monaghan, Georgeta Bordea, Krystian Samp, Paul Buitelaar (2010)
Exploring Your Research: Sprinkling some Saffron on Semantic Web Dog Food, 9th International Semantic Web Conference (ISWC), Semantic Web Challenge, Shanghai, China.
%%[%%OECD, 2002%%]%% International Mobility of the Highly Skilled. Policy Brief, OECD, 2002, Paris.
%%[%%Rogers 2010%%]%% Richard Rogers, “Internet Research: The Question of Method,” Journal of Information Technology and Politics 7 (2010): 241-260.
%%[%%Shokhenmayer 2010%%]%% Evgeny Shokhenmayer Cartography in onomastic research / TRANS vol.18; Virtual INST World Conference. CCKS: Cities, Cultures, Knowledge Societies. Section ‘Cartographic Science as a Reflection of Knowledge Societies and Cultures’, 2010
%%[%%Tummarello et al. 2010%%]%% Giovanni Tummarello, Richard Cyganiak, Michele Catasta, Szymon Danielczyk, Renaud Delbru, Stefan Decker “Sig.ma: Live views on the Web of Data”, Journal of Web Semantics: Science, Services and Agents on the World Wide Web - Volume 8, Issue 4, November 2010, Pages 355-364
%%[%%Yates et al. 2007%%]%% Alexander Yates, Michael Cafarella, Michele Banko, Oren Etzioni, Matthew Broadhead, and Stephen Soderland. 2007. TextRunner: open information extraction on the web. In Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics: Demonstrations (NAACL-Demonstrations '07)
Calendarización de las actividades del proyecto (cronograma)
Año | Actividades | Objetivo |
1 |
Estado del arte
Testbed a partir del corpus CIDESAL (Conacyt + Conicet + Colciencias)
Actualización de Unoporuno
Implementación local de FRED
Guía ética y código de transparencia para la manipulación de datos biográficos provenientes del web
Casos de uso
| Desarrollar un marco teórico, metodológico, ético y tecnológico de análisis y evaluación de la calidad de datos del proyecto. |
2 |
Clustering de los resultados de Unoporuno usando WSI (Word Sense Induction)
Ontología de ámbitos de experiencia/ compilation de recursos epistemológicos (léxicos, diccionarios, tesauros)
Anotación de entidades nombradas + evaluación
Extracción de eventos + evaluación
Gramática formal para el reconocimiento de nombres de personas en español, francés, inglés y alemán + evaluación
| Identificar la metodología adecuada (incluyendo herramientas y técnicas) para usar métodos de minería semántica que permitan extraer información de calidad/relevante para el dominio en estudio de este proyecto. |
3 |
Integración Unoporuno+FRED
Algoritmos de aprendizaje automático para la clasificación de resultados del motor de búsqueda
Algoritmos de aprendizaje automático para la clasificación de las trayectorias profesionales
Primeras cartografías individuales
| Construcción de las primeras cartografías individuales como consecuencia de la integración entre la herramienta de machine reading FRED y la anotación semántica de los resultados del motor de búsqueda. Desarrollo de algoritmos de aprendizaje automático (y en su defecto aprendizaje profundo) para la clasificación del contenido informacional de la anotación semántica así como de la trayectoria profesional de los miembros de la diáspora altamente calificada. |
4 | | Cartografías y estadísticas agregadas. Correlación web vs. campo |
Acciones
Año | Acciones |
1 |
Misión de de 15 días para 2 investigadores mexicanos en Francia.
Misión de 15 días para 2 investigadores franceses en México.
Misión de un mes para un doctorando francés en México
Publicación conjunta de un artículo de posicionamiento del tema.
|
2 |
Misión de de 15 días para 2 investigadores mexicanos en Francia.
Misión de 15 días para 2 investigadores franceses en México.
Publicación conjunta de resultados preliminares
|
3 |
Misión de de 15 días para 2 investigadores mexicanos en Francia.
Misión de 15 días para 2 investigadores franceses en México.
Publicación conjunta de resultados preliminares
|
4 |
Misión de de 15 días para 2 investigadores mexicanos en Francia.
Misión de 15 días para 2 investigadores franceses en México.
Organización de un congreso de presentación de resultados y cierre
Participación conjunta en el tribunal de titulación para el estudiante de doctorado financiado por CONACYT
Publicación conjunta de los resultados del proyecto en una revista indizada JCR
|
Resultados esperados y beneficios globales del proyecto
Resultados esperados
Corpus y método de evaluación empírica de las cartografías individuales de trayectoria profesional a partir de la web.
Método para cartografiar a las diásporas del conocimiento a partir de los datos disponibles en la web.
Sistema de producción de cartografías individuales de expertos, ya sea a partir del nombre de un experto o a partir de un ámbito de conocimiento y algunas restricciones biográficas (ejemplo: busco a un experto en frenado por corrientes de Foucault de nacionalidad mexicana y que haya estudiado en Francia).
Ontología epistemológica de ámbitos de experiencia
Publicaciones conjuntas entre el equipo de México y de Francia.
Organización de un coloquio Franco-Mexicano de doctorantes e investigadores participantes, en el marco de la temática del proyecto.
Impacto institucional y social de los resultados alcanzados en el proyecto
El desarrollo de una cartografía que permita visualizar la trayectoria profesional de la diáspora calificada permitiría a los organismos que financian la investigación tener una idea más clara del grado de emigración y el grado de retorno de los exbecarios.
Los países en vías de desarrollo contarían con un método relativamente menos costoso que los censos o las encuestas de campo para localizar su talento.
Las pequeñas y medianas empresas mexicanas podrían contar con una herramienta informática que les permita vincularse con la diáspora altamente calificada, de forma y manera que esta podría vincularse con y movilizarse por el desarrollo nacional.
En términos institucionales, la integración de un proyecto de investigación que sería desarrollado de manera conjunta entre nuestra institución y un centro de investigación francés sería de mucho beneficio puesto que permitiría intercambiar conocimientos, herramientas y recursos que redundaría sin duda en un avance académico y de investigación importante.
Finalmente, dado que se contempla la formación doctoral de al menos un estudiante mexicano, este tendrá una incorporación a futuro en México, lo cual redundaría también en un impacto a nivel social.
Participación de cada investigador y producto de su trabajo
Año | Actividades | Investigador |
1 |
Estado del arte
Testbed a partir del corpus CIDESAL (Conacyt + Conicet + Colciencias)
Actualización de Unoporuno
Implementación local de FRED
Guía ética y código de transparencia para la manipulación de datos biográficos provenientes del web
Casos de uso
|
Doctorando beca Conacyt
Ehab Hassan
Jorge García Flores
Dana Diminescu
Davide Buscaldi
Iván Vladimir Meza R.
Gibrán Fuentes Pineda
Aldo Gangemi
Luis A. Pineda Cortés
Jean Baptiste Meyer
Fernando Lozano Ascencio
|
2 |
Clustering de los resultados de Unoporuno usando WSI (Word Sense Induction)
Ontología de ámbitos de experiencia/ compilation de recursos epistemológicos (léxicos, diccionarios, tesauros)
Anotación de entidades nombradas + evaluación
Extracción de eventos + evaluación
Gramática formal para el reconocimiento de nombres de personas en español, francés, inglés y alemán + evaluación
|
Doctorando beca Conacyt
Jorge García Flores
Iván Vladimir Meza R.
Thierry Charnois
Davide Buscaldi
Luis A. Pineda C.
|
3 |
Integración Unoporuno+FRED
FRED multilingüe
Producción de RDF + evaluación
Algoritmos de aprendizaje automático para la clasificación de resultados del motor de búsqueda
Algoritmos de aprendizaje automático para la clasificación de las trayectorias profesionales
Validación sociológica de las primeras cartografías individuales
|
Doctorando beca Conacyt
Jorge García Flores
Aldo Gangemi
Dana Diminescu
Jean-Baptiste Meyer
Gibrán Fuentes Pineda
Iván Vladimir Meza R.
Davide Buscaldi
|
4 |
Cartografías y estadísticas agregadas.
Correlación web vs. campo
Correlación entre datos provenientes del web y datos de campo (OCDE)
Evaluación
|
Doctorando beca Conacyt
Jorge García Flores
Dana Diminescu
Jean-Baptiste Meyer
Davide Buscaldi
Iván Vladimir Meza R.
Fernando Lozano Ascencio
Luis A. Pineda C.
|
Actividades del estudiante de doctorado a realizar en el proyecto y plan de trabajo del mismo
Año | Actividades | Objetivo |
1 |
Estudio del estado del arte sobre las herramientas actuales en expert finding.
Estudio de técnicas para la extracción terminológica en dominios específicos y ontologías.
Análisis de representaciones textuales efectivos en la extracción de información.
| Identificar los conceptos teóricos necesarios para el desarrollo del proyecto en cuestión. |
2 | | Identificar la metodología adecuada (incluyendo herramientas y técnicas) para usar métodos de minería de textos que permitan extraer información de calidad/relevante para el dominio en estudio de este proyecto. |
3 | | Construir una herramienta de visualización cartográfica biográfica para el dominio de las diásporas calificadas. |
4 | | Evaluar la exactitud de las trayectorias profesionales construidas. |
Antecedentes de cooperación
Davide Buscaldi (LIPN), Jorge Garcia Flores (LIPN) Iván Vladimir Meza (IIMAS) participaron juntos en la campaña de evaluación semántica Semeval 2015 (tarea: similaridad semántica entre frases), trabajo que dio lugar a una publicación conjunta en las actas del congreso.
Davide Buscaldi (LIPN) e Iván Vladimir Meza (IIMAS) participaron juntos en la tarea de perfilado de autor para la campaña PAN-CLEF 2015, trabajo que dio lugar a una publicación conjunta en las actas del congreso.
Aldo Gangemi (LIPN), Jorge Garcia Flores (LIPN), Iván Vladimir Meza (IIMAS) y Luis A. Pineda Cortés (IIMAS) redactaron conjuntamente el proyecto Generación de relatos de experiencias espaciales en robots de servicio por extracción de conocimiento a partir de textos, que acaba de ser seleccionado en la convocatoria de Apoyo a pequeñas inciativas de investigación, animación y transferencia (PIRAT 2015) de la Agencia Universitaria de la Francofonía.
Publicaciones
Equipo francés
Aldo Gangemi
Andrea Giovanni Nuzzolese, Valentina Presutti, Aldo Gangemi, Alberto Musetti and Paolo Ciancarini (2013): Aemoo: exploring knowledge on the Web. Proceedings of WebSci2103 (ACM Web Science Conference), ACM, 2013.
Aldo Gangemi. A Comparison of Knowledge Extraction Tools for the Semantic Web (2013): Proceedings of ESWC2013, LNCS, Springer, 2013.
Valentina Presutti, Francesco Draicchio and Aldo Gangemi. Knowledge extraction based on Discourse Representation Theory and Linguistic Frames (2012): A. ten Teije and J. Völker (eds.): Proceedings of the Conference on Knowledge Engineering and Knowledge Management (EKAW2012), LNCS, Springer, 2012.
Baldassarre C., Daga E., Gangemi A., Gliozzo A., Salvati A., Troiani G. Semantic Scout (2010): Making Sense of Organizational Knowledge. P. Cimiano and S: Pinto (eds.): Proceedings of the Conference on Knowledge Engineering and Knowledge Management (EKAW2010), Springer, 2010.
Ciaramita M, Gangemi A, Ratsch E, Rojas I, Saric J. (2005): Unsupervised Learning of Semantic Relations between Concepts of a Molecular Biology Ontology, in Proceedings of International Joint Conference on Artificial Intelligence (IJCAI2005), 2005.
Dana Diminescu
Diminescu D. (ed.): Special issue: Diasporas on the Web (2012) Social Science Information Journal, December 2012; 51 (4) Publisher: SAGE, on behalf of Maison des Sciences de l’Homme, Paris, ISSN 0539-0184, 245 pages.
Diminescu D. The connected migrant: an epistemological manifesto. Social Science Information (December 2008) vol. 47 no. 4 565-579
Diminescu D., 2007 « Le passage par l’écran : ou l’émergence de nouvelles frontières », in Actes du colloque Les frontières de l’Europe, Ed Universitatii, Bucarest, pp 263-274
Diminescu D., (2006), « L’usage du téléphone portable par les migrants en situations précaire », in Quatre ans de recherche urbaine (2001-2004), ACI-Ville Min de la recherche, E. Bajolet, MF Mattei, JM Rennes (sld ), Presse Universitaire François Rabelais, MSH Ville et territoire, Tours, 2006, pp90-98
Diminescu D., (2006), « Genèse d’une figure de migrant, in Cosmopolitiques n°11/2006, ed Apogée, Paris, pp. 63-73
Davide Buscaldi
Davide Buscaldi and Paulo Rosso. A conceptual density-based approach for the disambiguation of toponyms. Int. J. Geogr. Inf. Sci., 22(3) :301–313, 2008
Davide Buscaldi, Paolo Rosso, José Manuel Gómez, and Emilio Sanchis. Answering questions with an n-gram based passage retrieval engine. Journal of Intelligent Information Systems (JIIS), 34(2) :113–134, 2009.
Paolo Rosso, Santiago Correa, and Davide Buscaldi. Passage retrieval in legal texts. Journal of Logic and Algebraic Programming, 80(3-5) :139 – 153, 2011.
Guillaume Cleuziou, Davide Buscaldi, Vincent Levorato, and Gaël Dias. A pretopological framework for the automatic construction of lexical-semantic structures from texts. In CIKM ’11 : Proceedings of the 20th ACM international conference on Information and knowledge management, pages 2453–2456, New York, NY, USA, 2011. ACM.
Davide Buscaldi. Approaches to disambiguating toponyms. SIGSPATIAL Special, 3(2) :16–19, 2011.
Jorge J. Garcia Flores
D. Buscaldi, J. Garcia Flores, I. V. Meza and I. Rodriguez (2015) SOPA: Random Forests Regression for the Semantic Textual Similarity task. In Procedings of the International Workshop on Semantic Evaluation (SemEval-2015), June 3-5, Denver, Colorado (in press).
J. J. Garcia Flores, Pierre Zwigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, pp. 180-191.
J. Garcia-Flores and W.A. Turner (2011) A Nominal Filter for Web Search Snippets: Using the Web to Identify Members of Latin America’s Highly Qualified Diaspora. In I.Z. Batyrshin & G. Sidorov, Mexican International Conference on Artificial Inteligence (MICAI 2011), IEEE press, ISBN: 978-1-4577-2173-1, pp. 45-50.
B. Djioua, J.J. Garcia Flores, A. Blais, J-P. Desclés, G. Guibert, A Jackiewicz., F. Le Priol, L. Nait-Baha, B. Sauzay (2006) EXCOM: an automatic annotation engine for semantic information. In G. Sutcliff & R. Goebel (eds.): Florida Artificial Intelligence Research Society Conference (FLAIRS 2006), Association for the Advancement of Artificial Intelligence Press, ISBN 978-1-57735-261-7, pp. 285-290 .
Jean Baptiste Meyer
J-B. Meyer (2013): « Diasporas et développement », Hommes et Migrations, n°1303 juil-sept : 134-137
J-B. Meyer (2012): « Skills circulation and the Advent of a New World Order », Diversities, 14 (1).
B. Khadria, J-B. Meyer (2011): El papel de la migracion en la reestructuracion de los sistemas de inovacion», / «The role of migration in the restructuring of innovation systems, Migracion y desarrollo / Migration and Development, 9 (16) : 81-120
J-B. Meyer (2010), «Towards Sustainable Knowledge Diasporas : Implementing an Equitable Brain Circulation », International Journal of Contemporary Sociology, 47 (1) : 41-58
W. Turner, J-B. Meyer, P. Guchteneire, A. Azizi (2009): « Diaspora Knowledge Networks », Idafat Arab Journal of Sociology, n°11, summer 2010 (in Arabic)
Thierry Charnois
Cellier, P., Charnois, T., Plantevit, M., Rigotti, C., Cremilleux, B., Gandrillon, O., Klema, J., Manguin, J. L. (2015): Sequential Pattern Mining for Discovering Gene Interactions and their Contextual Information from Biomedical Texts. Journal of Biomedical Semantics, 6:27, 2015.
Pierre Holat, Marc Plantevit, Chedy Raïssi, Nadi Tomeh, Thierry Charnois, and Bruno Crémilleux (2014): Sequence Classification Based on Delta-Free Sequential Pattern. Proceedings of the IEEE International Conference on Data Mining (ICDM), Shenzhen, China, p. 170-179, December 14-17, 2014.
Amina Kemmar , Willy Ugarte , Samir Loudni , Thierry Charnois, Yahia Lebbah, Patrice Boizumault and Bruno Cremilleux (2014): Mining Relevant Sequence Patterns with CP-based Framework. Proceedings of the IEEE International Conference on Tools with Artificial Intelligence (ICTAI), Limassol, Cyprus, P. 552-559, November 10-12, 2014.
Laurie Serrano, Maroua Bouzid, Thierry Charnois, Stephan Brunessaux, Bruno Grilheres (2013): Events Extraction and Aggregation for Open Source Intelligence: From Text to Knowledge. Proceedings of the IEEE International Conference on Tools with Artificial Intelligence (ICTAI), p.518-523, Washington DC, USA, November 4-6 2013.
Peggy Cellier, Sébastien Ferré, Mireille Ducassé and Thierry Charnois (2011): Partial Orders and Logical Concept Analysis to Explore Patterns Extracted by Data Mining, Conceptual Structures for Discovering Knowledge. Proceedings of the 19th International Conference on Conceptual Structures, ICCS 2011, vol. 6828 of Lecture Notes in Computer Science, Springer, p. 77-90, Derby, UK, July 2011.
Equipo mexicano
Iván Vladimir Meza R.
C. Rascón, G. Fuentes, and I. Meza (2015): Lightweight multi-DOA tracking of mobile speech sources. EURASIP Journal on Audio, Speech, and Music Processing, Vol. 11, pp. 16, 2015.
I. Meza, C. Rascon, and L. Pineda (2013): Practical Speech Recognition for Contextualized Service Robots. Proceedings MICAI 2013. LNCS (LNAI), Vol. 8266, pp. 423-434, 2013.
I. Meza, E. Pérez, L. Salinas, H. Avilés and L. Pineda (2010): A Multimodal Dialogue System for Playing the Game “Guess the card”. Procesamiento de Lenguaje Natural, Vol. 44, pp. 131-138, 2010.
Ivan Meza-Ruiz, Sebastian Riedel (2009): Jointly identifying predicates, arguments and senses using Markov logic. Proceedings of Human Language Technologies: The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 155-163, 2009.
Sebastian Riedel, Ivan Meza-Ruiz (2008): Collective semantic role labelling with Markov logic. Proceedings of the Twelfth Conference on Computational Natural Language Learning, pp. 193-197, Association for Computational Linguistics, 2008.
Luis A. Pineda C.
L. Pineda, A. Rodríguez, G. Fuentes, C. Rascón and I. Meza (2015): Concept and Functional Structure of a Service Robot. International Journal of Advanced Robotic Systems, Vol. 12:6, pp. 1-15, 2015.
Luis Pineda, Salinas, L., Meza, I., Rascon, C., and Fuentes, G. (2013): SitLog: A Programming Language for Service Robot Tasks. International Journal of Advanced Robotic Systems. vol 10.358, pp 12. 2013.
Luis A Pineda, Hayde Castellanos, Javier Cuétara, Lucian Galescu, Janet Juárez, Joaquim Llisterri, Patricia Pérez, Luis Villaseñor (2010): The Corpus DIMEx100: transcription and evaluation. Language Resources and Evaluation 44 (4), 347-370.
Luis Pineda, Estrada, V., Coria, S. and Allen, J. (2007): The obligations and common ground structure of practical dialogues. In Revista Iberoamericana de Inteligencia Artificial.. vol 11(36), pp 9-17. 2007.
Luis Pineda, Gabriela Garza (2000) A model for multimodal reference resolution. Computational Linguistics 26 (2), 139-193
Fernando Lozano Ascencio
Lozano Ascencio, Fernando, Luciana Gandini y Ana Elizabeth Jardón (2015, en prensa): Condiciones laborales en tiempos de crisis: el caso de las personas migrantes calificadas de América Latina y el Caribe en los Estados Unidos, Centro Regional de Investigaciones Multidisciplinarias de la UNAM.
Ramírez García, Telésforo y Fernando Lozano Ascencio (2015, en prensa): “Re-inserción laboral de los migrantes calificados de retorno de Estados Unidos a México: ¿ganancia o desperdicio de talentos?”, en Fernando Lozano Ascencio y Jorge Martínez Pizarro, Retorno en los procesos migratorios de América Latina. Conceptos, debates, evidencias, Asociación Latinoamericana de Población y Organización Internacional para las Migraciones.
Lozano Ascencio, Fernando, Luciana Gandini y Telésforo Ramírez García (2015): “Devaluación del trabajo de posgraduados en México y su relación con la migración internacional: el caso de los profesionistas en ciencia y tecnología”, en Raúl Delgado Wise (Coordinador), La migración altamente calificada: elementos para una política nacional de ciencia y tecnología. Informe Técnico. Consejo Nacional de Ciencia y Tecnología y UNESCO-MOST, México.
Lozano Ascencio, Fernando y Telésforo Ramírez García (2015, en prensa): “Obama’s Immigration Executive Action and STEM Workers”, Voices of México, Centro de Investigaciones sobre América del Norte, UNAM.
Gandini, Luciana y Fernando Lozano-Ascencio (2015): “The Effects of the Crisis on Occupational Segregation of Skilled Migrants from Latin America and the Caribbean in the United States, 2006–2012” Population Space and Place, WILEY. DOI: 10.1002/psp.1909. Aceptado el 7 de octubre de 2014.
Gibrán Fuentes Pineda
Luis A. Pineda, Lisset Salinas, Ivan V. Meza, Caleb Rascon and Gibran Fuentes (2013): SitLog: A Programming Language for Service Robot Tasks. International Journal of Advanced Robotic Systems, Marco Ceccarelli (Ed.), 2013
Paola Ledesma, Gibran Fuentes, Gabriela Jasso, Angel Toledo and Ivan Meza (2013): Distance Learning for Author Verification: Notebook for PAN at CLEF 2013. CLEF 2013 Evaluation Labs and Workshop, Online Working Notes, page 8, 2013
Luis Pineda and The Golem Group (2013): The Golem Team, RoboCup@Home 2013. Proceedings of Robocup, 2013.
Gibran Fuentes Pineda, Hisashi Koga and Toshinori Watanabe (2011): Scalable Object Discovery: A Hash-based Approach to Clustering Co-occurring Visual Words. Transactions on Information and Systems, E94-D(10):2024–2035, 2011
Gibran Fuentes Pineda (2011): Efficient object discovery based on locality sensitive hashing. Ph.D thesis, The University of Electro-Communications, Japan, 2011
Referencias
Pierre Zweigenbaum
pz@limsi.fr
(+33) 01 69 85 80 04
LIMSI-CNRS BP 133, F-91403 ORSAY CEDEX
Christian Licoppe
licoppe@enst.fr
(+33)1 45 81 81 16
ENST, Département EGSH
46 rue Barrault, 75634 Paris Cedex 13
Liens
ToDo
To confirm the intrest of all the consortium members
To finish the french document and start looking for the support letter from BRED
To ask for the mexican and french team CV
To start filling the Conacyt online document