Différences
Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
equipes:rcln:ancien_wiki:projets:cartographie_diaspora_savoirs_fouille_semantique:es [2019/04/05 10:15] rosse [Lista de investigadores participantes en el proyecto] |
equipes:rcln:ancien_wiki:projets:cartographie_diaspora_savoirs_fouille_semantique:es [2020/11/23 18:42] (Version actuelle) garciaflores ↷ Liens modifiés en raison d'un déplacement. |
||
---|---|---|---|
Ligne 57: | Ligne 57: | ||
| Ivan Vladimir MEZA RUIZ | Doctorado, University of Edinburgh, 2009 | IIMAS/UNAM | Técnico Académico | Adaptación de algoritmos de aprendizaje automático | | | Ivan Vladimir MEZA RUIZ | Doctorado, University of Edinburgh, 2009 | IIMAS/UNAM | Técnico Académico | Adaptación de algoritmos de aprendizaje automático | | ||
| Fernando LOZANO ASCENCIO | Doctorado, University of Texas | CRIM/UNAM | Investigador Titular C (SNI Nivel II) | Validación de las hipótesis sociológicas y la utilidad de la plataforma | | | Fernando LOZANO ASCENCIO | Doctorado, University of Texas | CRIM/UNAM | Investigador Titular C (SNI Nivel II) | Validación de las hipótesis sociológicas y la utilidad de la plataforma | | ||
- | | Gibrán FUENTES PINEDA | Doctorado, University of Electro-Communications, | + | | Gibrán FUENTES PINEDA | Doctorado, University of Electro-Communications, |
- | | Aprendizaje automático | | + | |
==== En Francia ==== | ==== En Francia ==== | ||
- | {| border=" | + | ^ Nombre |
- | !Nombre | + | | Aldo GANGEMI | Profesor investigador titular | Master en filosofía, Sapienza, 1989 | LIPN/ |
- | !Categoría | + | | Thierry CHARNOIS | Profesor investigador titular | Doctorado, LIPN, 1999 | LIPN/ |
- | !Máximo grado académico | + | | Davide BUSCALDI | Maestro investigador titular | Doctorado, Politécnica de Valencia, 2010 | LIPN/ |
- | !Unidad de adscripción | + | | Jorge GARCIA FLORES | Ingeniero investigador titular | Doctorado, Paris-Sorbonne, |
- | !Actividad a realizar | + | | Ehab HASSAN | Doctorando | Maestría, Paris Dauphine, |
- | |- | + | | Dana DIMINESCU | Maestría, ENST | ENST – Télécom ParisTech | Maestra investigadora titular | Visualización de cartografías y validación sociológica | |
- | |Aldo GANGEMI | + | | Jean-Baptiste MEYER | Doctorado, ENSMP, 1992 | Institut de recherche pour le développement (IRD) | Director de investigación titular | Validación sociológica de los resultados | |
- | |Profesor investigador titular | + | |
- | |Master en filosofía, Sapienza, 1989 | + | |
- | |LIPN/ | + | |
- | |Machine Reading, RDF/OWL, Web Semántica, FRED. | + | |
- | |- | + | |
- | |- | + | |
- | |Thierry CHARNOIS | + | |
- | |Profesor investigador titular | + | |
- | |Doctorado, LIPN, 1999 | + | |
- | |LIPN/ | + | |
- | |Extracción de patrones biográficos | + | |
- | |- | + | |
- | |Davide BUSCALDI | + | |
- | |Maestro investigador titular | + | |
- | |Doctorado, Politécnica de Valencia, | + | |
- | 2010 | + | |
- | |LIPN/ | + | |
- | |Proximidad semántica, | + | |
- | |- | + | |
- | |Jorge GARCIA FLORES | + | |
- | |Ingeniero investigador titular | + | |
- | |Doctorado, Paris-Sorbonne, | + | |
- | |LIPN/ | + | |
- | |Anotación de resultados de motores de búsqueda, gramáticas formales para el reconocimiento de nombres propios. | + | |
- | |- | + | |
- | |Ehab HASSAN | + | |
- | |Doctorando | + | |
- | |Maestría, Paris Dauphine, | + | |
- | |LIPN/ | + | |
- | |Extracción de eventos temporales | + | |
- | |- | + | |
- | |Dana DIMINESCU | + | |
- | |Maestría, ENST | + | |
- | |ENST – Télécom ParisTech | + | |
- | |Maestra investigadora titular | + | |
- | |Visualización de cartografías y validación sociológica | + | |
- | |- | + | |
- | |Jean-Baptiste MEYER | + | |
- | |Doctorado, ENSMP, 1992 | + | |
- | |Institut de recherche pour le développement (IRD) | + | |
- | |Director de investigación titular | + | |
- | |Validación sociológica de los resultados | + | |
- | |- | + | |
- | |} | + | |
===== Medios ===== | ===== Medios ===== | ||
Ligne 129: | Ligne 84: | ||
==== Formación doctoral ==== | ==== Formación doctoral ==== | ||
- | * Estamos buscando un candidato apto para irse a Francia a estudiar el doctorado. [[Beca de doctorado en Francia en tecnologías del lenguaje aplicadas a las humanidades digitales|Convocatoria aquí]]. | + | * Estamos buscando un candidato apto para irse a Francia a estudiar el doctorado. [[equipes: |
===== Descripción detallada del proyecto ===== | ===== Descripción detallada del proyecto ===== | ||
==== Identificación del tema y estado del conocimiento ==== | ==== Identificación del tema y estado del conocimiento ==== | ||
- | La localización de la emigración altamente calificada es un problema de vital importancia para los países en vías de desarrollo. Más allá de las fuentes demográficas, | + | La localización de la emigración altamente calificada es un problema de vital importancia para los países en vías de desarrollo. Más allá de las fuentes demográficas, |
- | La primera aplicación de tecnologías del lenguaje humano al campo de la sociología de la migración fue el sistema Unoporuno | + | La primera aplicación de tecnologías del lenguaje humano al campo de la sociología de la migración fue el sistema Unoporuno |
- | En cuanto a al hecho de cartografiar a la diáspora utilizando los datos disponibles en Internet, los avances más recientes fueron llevados a cabo durante el proyecto e-Diáspora Atlas o “atlas de la diáspora electrónica”. Este proyecto consistió en censar y analizar algo más de 8000 sitios web creados o frecuentados por los emigrantes del mundo entero. A partir de este análisis fueron producidos mapas de hipervínculos que caracterizaban a las diásporas nacionales según la topología creada sus hipervínculos [[Diminescu|2008]]. | + | En cuanto a al hecho de cartografiar a la diáspora utilizando los datos disponibles en Internet, los avances más recientes fueron llevados a cabo durante el proyecto e-Diáspora Atlas o “atlas de la diáspora electrónica”. Este proyecto consistió en censar y analizar algo más de 8000 sitios web creados o frecuentados por los emigrantes del mundo entero. A partir de este análisis fueron producidos mapas de hipervínculos que caracterizaban a las diásporas nacionales según la topología creada sus hipervínculos |
- | El sistema Name-sor | + | El sistema Name-sor |
- | Curiosamente ningún sistema de búsqueda de expertos (expert finding) ha sido nunca aplicado a la búsqueda de emigrantes altamente calificados. Esto se debe quizás a que estos sistemas no suelen tomar en cuenta la información biográfica de los expertos, puesto que sus esfuerzos metodológicos se concentran en recuperar relaciones epistemológicas estables entre un experto y su ámbito de experiencia (o dominio). | + | Curiosamente ningún sistema de búsqueda de expertos (expert finding) ha sido nunca aplicado a la búsqueda de emigrantes altamente calificados. Esto se debe quizás a que estos sistemas no suelen tomar en cuenta la información biográfica de los expertos, puesto que sus esfuerzos metodológicos se concentran en recuperar relaciones epistemológicas estables entre un experto y su ámbito de experiencia (o dominio). |
- | Los mejores resultados reportados en la literatura en lo que a minería semántica de resultados de motores de búsqueda se refiere fueron obtenidos con el método de inducción del sentido de las palabras (Word Sense Induction o WSI) [[Di|Marco & Navigli 2013]], que se apoya en un análisis de capas de coocurrencia léxica y en el uso de DBpedia | + | Los mejores resultados reportados en la literatura en lo que a minería semántica de resultados de motores de búsqueda se refiere fueron obtenidos con el método de inducción del sentido de las palabras (Word Sense Induction o WSI) %%[%%Di Marco & Navigli 2013%%]%%, que se apoya en un análisis de capas de coocurrencia léxica y en el uso de DBpedia |
- | En cuanto a la minería de relaciones semánticas necesarias para reconstruir la trayectoria profesional de una persona, diversas herramientas han sido propuestas. Citaremos aquí dos de ellas: Text Runner [[Yates|et al. 2007]] recupera información de un texto por medio de una cadena de procesamiento que incluye el análisis morfosintáctico de las frases que componen el texto, el reconocimiento de sintagmas nominales y la producción de un conjunto de binomios representativos de las relaciones semánticas en el texto. En la misma línea, FRED [[Gangemi|et al. 2014]] es una herramienta de “lectura a máquina” (machine reading) capaz de extraer la mayor cantidad de información posible de un texto (entidades nombradas, taxonomías, | + | En cuanto a la minería de relaciones semánticas necesarias para reconstruir la trayectoria profesional de una persona, diversas herramientas han sido propuestas. Citaremos aquí dos de ellas: Text Runner |
==== Originalidad ==== | ==== Originalidad ==== | ||
- | La principal innovación de nuestra propuesta radica en el hecho de aplicar los últimos avances en procesamiento del lenguaje natural, como la minería semántica y la “lectura a máquina”, | + | La principal innovación de nuestra propuesta radica en el hecho de aplicar los últimos avances en procesamiento del lenguaje natural, como la minería semántica y la “lectura a máquina”, |
Se hace aquí necesario abrir un paréntesis para mencionar la originalidad de los equipos participantes en el proyecto. El LIPN cuenta con vasta experiencia en métodos que combinan el procesamiento del lenguaje natural y la representación del conocimiento. Esta vocación de construir representaciones semánticas a partir de anotaciones textuales se ha visto reforzada con la incorporación del sistema FRED y de los métodos de //machine reading// a las actividades cotidianas de investigación del laboratorio. Esta experiencia de traducción de frases cortas no estructuradas en grafos RDF/OWL haciendo uso de fuentes de conocimientos extralingüísticos estructuradas como DBpedia hace posible considerar la aplicación de un tratamiento semántico profundo para aquellos resultados arrojados por el motor de búsqueda Internet y considerados pertinentes para reconstruir la trayectoria profesional de una persona. Además, el laboratorio posee un buen conocimiento de los métodos de producción masiva de búsquedas automáticas en Internet, puesto que la última versión del sistema Unoporuno ha sido también desarrollada por el LIPN. La participación anual a la tarea de similitud semántica de SEMEVAL permite también considerar la integración de cálculos de proximidad semántica en los métodos de clustering de resultados del motor de búsqueda. En cuanto a la pertinencia de las cartografías de las diásporas calificadas, | Se hace aquí necesario abrir un paréntesis para mencionar la originalidad de los equipos participantes en el proyecto. El LIPN cuenta con vasta experiencia en métodos que combinan el procesamiento del lenguaje natural y la representación del conocimiento. Esta vocación de construir representaciones semánticas a partir de anotaciones textuales se ha visto reforzada con la incorporación del sistema FRED y de los métodos de //machine reading// a las actividades cotidianas de investigación del laboratorio. Esta experiencia de traducción de frases cortas no estructuradas en grafos RDF/OWL haciendo uso de fuentes de conocimientos extralingüísticos estructuradas como DBpedia hace posible considerar la aplicación de un tratamiento semántico profundo para aquellos resultados arrojados por el motor de búsqueda Internet y considerados pertinentes para reconstruir la trayectoria profesional de una persona. Además, el laboratorio posee un buen conocimiento de los métodos de producción masiva de búsquedas automáticas en Internet, puesto que la última versión del sistema Unoporuno ha sido también desarrollada por el LIPN. La participación anual a la tarea de similitud semántica de SEMEVAL permite también considerar la integración de cálculos de proximidad semántica en los métodos de clustering de resultados del motor de búsqueda. En cuanto a la pertinencia de las cartografías de las diásporas calificadas, | ||
Ligne 150: | Ligne 105: | ||
==== Objetivos ==== | ==== Objetivos ==== | ||
- Desarrollar métodos computacionales que permitan cartografiar automáticamente la trayectoria individual de profesionales expertos con la finalidad de localizar aquellos científicos que posean ciertas habilidades y/o conocimientos específicos. Asimismo, la visualización de dicha trayectoria científica, | - Desarrollar métodos computacionales que permitan cartografiar automáticamente la trayectoria individual de profesionales expertos con la finalidad de localizar aquellos científicos que posean ciertas habilidades y/o conocimientos específicos. Asimismo, la visualización de dicha trayectoria científica, | ||
- | - Establecer un mecanismo que permita producir datos con anotación semántica mediante una secuencia de tratamiento de información y machine reading que lleve los datos desde la expresión textual basada en lenguaje natural, hasta una representación estructurada basada en el conocimiento (RDF) a través de técnicas de aprendizaje automático y clustering usando el método WSI [[Di|Marco & Navigli 2013]]. Esta representación RDF será la base para cartografiar la trayectoria de los expertos. | + | - Establecer un mecanismo que permita producir datos con anotación semántica mediante una secuencia de tratamiento de información y machine reading que lleve los datos desde la expresión textual basada en lenguaje natural, hasta una representación estructurada basada en el conocimiento (RDF) a través de técnicas de aprendizaje automático y clustering usando el método WSI %%[%%Di Marco & Navigli 2013%%]%%. Esta representación RDF será la base para cartografiar la trayectoria de los expertos. |
- Producir cartografías y estadísticas en base a los datos agregados de las cartografías individuales que permitan comparar estas tendencias y calcular el grado de correlación estadística entre las tendencias del web y las provenientes de los datos de campo de la OCDE y la ONU. | - Producir cartografías y estadísticas en base a los datos agregados de las cartografías individuales que permitan comparar estas tendencias y calcular el grado de correlación estadística entre las tendencias del web y las provenientes de los datos de campo de la OCDE y la ONU. | ||
Ligne 156: | Ligne 111: | ||
* Partir de los corpora y recursos metodológicos de proyectos de investigación en sociología de las diásporas calificadas (CIDESAL) para construir el cartografiado individual de los expertos científicos que la conforman. | * Partir de los corpora y recursos metodológicos de proyectos de investigación en sociología de las diásporas calificadas (CIDESAL) para construir el cartografiado individual de los expertos científicos que la conforman. | ||
- Extraer información semántica válida de nombres propios en contextos semánticamente ricos (por ejemplo: una ficha bibliográfica); | - Extraer información semántica válida de nombres propios en contextos semánticamente ricos (por ejemplo: una ficha bibliográfica); | ||
- | - Integrar la herramientas de “lectura a máquina profunda” (//deep machine learning//) FRED [[Etzioni|et al. 2006 ; Gangemi et al. 2014]] al sistema de búsqueda de la diáspora del conocimiento Unoporuno [[Garcia|Flores et al. 2012]] para extender la funcionalidad de éste último al caso de uso tradicional de la búsqueda de expertos (//expert finding//) [[Bordea|& Buitelaar 2012]]. | + | - Integrar la herramientas de “lectura a máquina profunda” (//deep machine learning//) FRED %%[%%Etzioni et al. 2006 ; Gangemi et al. 2014%%]%% al sistema de búsqueda de la diáspora del conocimiento Unoporuno |
- Reforzar la recuperación de elementos semánticos a partir de resultados del motor de búsqueda con métodos de aprendizaje automático. | - Reforzar la recuperación de elementos semánticos a partir de resultados del motor de búsqueda con métodos de aprendizaje automático. | ||
- Construir las cartografías individuales de expertos científicos, | - Construir las cartografías individuales de expertos científicos, | ||
Ligne 194: | Ligne 149: | ||
- Se usará la salida del sistema actual “Unoporuno” como un criterio base (// | - Se usará la salida del sistema actual “Unoporuno” como un criterio base (// | ||
- Experimentar con métodos del Procesamiento del Lenguaje Natural (PLN) y minería de textos, complementado con técnicas de aprendizaje automático (//Machine Reading//), a fin de constituir una plataforma de tratamiento automático y masivo de información. | - Experimentar con métodos del Procesamiento del Lenguaje Natural (PLN) y minería de textos, complementado con técnicas de aprendizaje automático (//Machine Reading//), a fin de constituir una plataforma de tratamiento automático y masivo de información. | ||
- | - Modelar el campo epistemológico del ámbito de experiencia utilizando los métodos usuales en búsqueda de expertos [[Aleman-Meza|et al. 2007 ; Li et al. 2006]]. | + | - Modelar el campo epistemológico del ámbito de experiencia utilizando los métodos usuales en búsqueda de expertos |
- | - Integrar herramientas que traducen sentencias escritas en lenguaje natural a ontologías RDF/OWL con los sistemas de búsqueda de personas a fin de mejorar el proceso de refinamiento de la información de la información asociada | + | - Integrar herramientas que traducen sentencias escritas en lenguaje natural a ontologías RDF/OWL con los sistemas de búsqueda de personas a fin de mejorar el proceso de refinamiento de la información de la información asociada |
- Evaluar la extracción de los datos mínimos para reconstituir una carrera científica/ | - Evaluar la extracción de los datos mínimos para reconstituir una carrera científica/ | ||
- Producir datos en formatos semánticamente estructurados tipo RDF. | - Producir datos en formatos semánticamente estructurados tipo RDF. | ||
Ligne 203: | Ligne 158: | ||
==== Referencias bibliográficas ==== | ==== Referencias bibliográficas ==== | ||
- | **[[Aleman-Meza|et al. 2007]]** Boanerges Aleman-Meza , Uldis Bojars , Harold Boley , John G. Breslin , Malgorzata Mochol , Lyndon Jb Nixon , Axel Polleres , Anna V. Zhdanova. Combining RDF vocabularies for expert finding. In Proceedings of the 4th European Semantic Web Conference (ESWC2007), number 4519 in Lecture Notes in Computer Science, (2007). | + | **%%[%%Aleman-Meza et al. 2007%%]%%** Boanerges Aleman-Meza , Uldis Bojars , Harold Boley , John G. Breslin , Malgorzata Mochol , Lyndon Jb Nixon , Axel Polleres , Anna V. Zhdanova. Combining RDF vocabularies for expert finding. In Proceedings of the 4th European Semantic Web Conference (ESWC2007), number 4519 in Lecture Notes in Computer Science, (2007). |
- | **[[Banea|et al. 2008]]** Carmen Banea, Rada Mihalcea, Janyce Wiebe and Samer Hassan, Multilingual Subjectivity Analysis Using Machine Translation, | + | **%%[%%Banea et al. 2008%%]%%** Carmen Banea, Rada Mihalcea, Janyce Wiebe and Samer Hassan, Multilingual Subjectivity Analysis Using Machine Translation, |
- | **[[CIDESAL,|2014]]** CIDESAL : Construction d’Incubateurs des Diasporas du Savoir en Amérique Latine. | + | **%%[%%CIDESAL, 2014%%]%%** CIDESAL : Construction d’Incubateurs des Diasporas du Savoir en Amérique Latine. |
Rapport final d’activité. EuroAid/ | Rapport final d’activité. EuroAid/ | ||
- | **[[Bordea|& Buitelaar 2012]]** Georgeta Bordea, Paul Buitelaar. Expertise Mining. Proceedings of the 21st National Conference on Artificial Intelligence and Cognitive Science, Galway, Ireland, 2010. | + | **%%[%%Bordea & Buitelaar 2012%%]%%** Georgeta Bordea, Paul Buitelaar. Expertise Mining. Proceedings of the 21st National Conference on Artificial Intelligence and Cognitive Science, Galway, Ireland, 2010. |
- | **[[Di|Marco & Navigli 2013]]** Antonio Di Marco, Roberto Navigli: Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction. Computational Linguistics 39(3): 709-754 (2013) | + | **%%[%%Di Marco & Navigli 2013%%]%%** Antonio Di Marco, Roberto Navigli: Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction. Computational Linguistics 39(3): 709-754 (2013) |
- | **[[Diminescu|2008]]** Diminescu D. The connected migrant: an epistemological manifesto. Social Science Information (December 2008) vol. 47 no. 4 565-579 | + | **%%[%%Diminescu 2008%%]%%** Diminescu D. The connected migrant: an epistemological manifesto. Social Science Information (December 2008) vol. 47 no. 4 565-579 |
- | **[[Etzioni|et al. 2006]]** Oren Etzioni, Michele Banko and Michael J Cafarella. Machine Reading. AAAI Conference on Artificial Intelligence, | + | **%%[%%Etzioni et al. 2006%%]%%** Oren Etzioni, Michele Banko and Michael J Cafarella. Machine Reading. AAAI Conference on Artificial Intelligence, |
- | **[[Gangemi|et al. 2014]]** Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero. Frame-based detection of opinion holders and topics: a model and a tool. IEEE Computational Intelligence, | + | **%%[%%Gangemi et al. 2014%%]%%** Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero. Frame-based detection of opinion holders and topics: a model and a tool. IEEE Computational Intelligence, |
- | **[[Garcia|Flores et al. 2012]]** J. J. Garcia Flores, Pierre Zwigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, | + | **%%[%%Garcia Flores et al. 2012%%]%%** J. J. Garcia Flores, Pierre Zwigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, |
- | **[[Li|et al. 2006]]** Jie Li, Harold Boley, Virendrakumar C. Bhavsar, and Jing Mei. Expert Finding for eCollaboration Using FOAF with RuleML Rules. Montreal Conference on eTechnologies MCTECH, (May 17, 2006) | + | **%%[%%Li et al. 2006%%]%%** Jie Li, Harold Boley, Virendrakumar C. Bhavsar, and Jing Mei. Expert Finding for eCollaboration Using FOAF with RuleML Rules. Montreal Conference on eTechnologies MCTECH, (May 17, 2006) |
- | **[[Monaghan|et al. 2010]]** Fergal Monaghan, Georgeta Bordea, Krystian Samp, Paul Buitelaar (2010) | + | **%%[%%Monaghan|et al. 2010%%]%%** Fergal Monaghan, Georgeta Bordea, Krystian Samp, Paul Buitelaar (2010) |
Exploring Your Research: Sprinkling some Saffron on Semantic Web Dog Food, 9th International Semantic Web Conference (ISWC), Semantic Web Challenge, Shanghai, China. | Exploring Your Research: Sprinkling some Saffron on Semantic Web Dog Food, 9th International Semantic Web Conference (ISWC), Semantic Web Challenge, Shanghai, China. | ||
- | **[[OECD,|2002]]** International Mobility of the Highly Skilled. Policy Brief, OECD, 2002, Paris. | + | **%%[%%OECD, 2002%%]%%** International Mobility of the Highly Skilled. Policy Brief, OECD, 2002, Paris. |
- | **[[Rogers|2010]]** Richard Rogers, " | + | **%%[%%Rogers 2010%%]%%** Richard Rogers, " |
- | **[[Shokhenmayer|2010]]** Evgeny Shokhenmayer Cartography in onomastic research / TRANS vol.18; Virtual INST World Conference. CCKS: Cities, Cultures, Knowledge Societies. Section ‘Cartographic Science as a Reflection of Knowledge Societies and Cultures’, | + | **%%[%%Shokhenmayer 2010%%]%%** Evgeny Shokhenmayer Cartography in onomastic research / TRANS vol.18; Virtual INST World Conference. CCKS: Cities, Cultures, Knowledge Societies. Section ‘Cartographic Science as a Reflection of Knowledge Societies and Cultures’, |
- | **[[Tummarello|et al. 2010]]** Giovanni Tummarello, Richard Cyganiak, Michele Catasta, Szymon Danielczyk, Renaud Delbru, Stefan Decker " | + | **%%[%%Tummarello et al. 2010%%]%%** Giovanni Tummarello, Richard Cyganiak, Michele Catasta, Szymon Danielczyk, Renaud Delbru, Stefan Decker " |
- | **[[Yates|et al. 2007]]** Alexander Yates, Michael Cafarella, Michele Banko, Oren Etzioni, Matthew Broadhead, and Stephen Soderland. 2007. TextRunner: open information extraction on the web. In Proceedings of Human Language Technologies: | + | **%%[%%Yates et al. 2007%%]%%** Alexander Yates, Michael Cafarella, Michele Banko, Oren Etzioni, Matthew Broadhead, and Stephen Soderland. 2007. TextRunner: open information extraction on the web. In Proceedings of Human Language Technologies: |
===== Calendarización de las actividades del proyecto (cronograma) ===== | ===== Calendarización de las actividades del proyecto (cronograma) ===== | ||
- | {|border=" | + | |
- | !Año | + | ^ Año ^ Actividades |
- | !Actividades | + | | 1 | < |
- | !Objetivo | + | |
- | |- | + | |
- | |1 | + | |
- | | | + | |
* Estado del arte | * Estado del arte | ||
* //Testbed// a partir del corpus CIDESAL (Conacyt + Conicet + Colciencias) | * //Testbed// a partir del corpus CIDESAL (Conacyt + Conicet + Colciencias) | ||
Ligne 253: | Ligne 204: | ||
* Guía ética y código de transparencia para la manipulación de datos biográficos provenientes del web | * Guía ética y código de transparencia para la manipulación de datos biográficos provenientes del web | ||
* Casos de uso | * Casos de uso | ||
- | |Desarrollar un marco teórico, metodológico, | + | </ |
- | |- | + | | 2 | < |
- | |2 | + | |
- | | | + | |
* Clustering de los resultados de Unoporuno usando WSI (Word Sense Induction) | * Clustering de los resultados de Unoporuno usando WSI (Word Sense Induction) | ||
* Ontología de ámbitos de experiencia/ | * Ontología de ámbitos de experiencia/ | ||
Ligne 262: | Ligne 211: | ||
* Extracción de eventos + evaluación | * Extracción de eventos + evaluación | ||
* Gramática formal para el reconocimiento de nombres de personas en español, francés, inglés y alemán + evaluación | * Gramática formal para el reconocimiento de nombres de personas en español, francés, inglés y alemán + evaluación | ||
- | |Identificar la metodología adecuada (incluyendo herramientas y técnicas) para usar métodos de minería semántica que permitan extraer información de calidad/ | + | </ |
- | |- | + | | 3 | < |
- | |3 | + | |
- | | | + | |
* Integración Unoporuno+FRED | * Integración Unoporuno+FRED | ||
* Algoritmos de aprendizaje automático para la clasificación de resultados del motor de búsqueda | * Algoritmos de aprendizaje automático para la clasificación de resultados del motor de búsqueda | ||
* Algoritmos de aprendizaje automático para la clasificación de las trayectorias profesionales | * Algoritmos de aprendizaje automático para la clasificación de las trayectorias profesionales | ||
* Primeras cartografías individuales | * Primeras cartografías individuales | ||
- | + | </ | |
- | |Construcción de las primeras cartografías individuales como consecuencia de la integración entre la herramienta de machine reading FRED y la anotación semántica de los resultados del motor de búsqueda. Desarrollo de algoritmos de aprendizaje automático (y en su defecto aprendizaje profundo) para la clasificación del contenido informacional de la anotación semántica así como de la trayectoria profesional de los miembros de la diáspora altamente calificada. | + | | 4 | < |
- | |- | + | |
- | |4 | + | |
- | | | + | |
* Cartografías agregadas | * Cartografías agregadas | ||
* Estadísticas agregadas | * Estadísticas agregadas | ||
* Correlación entre datos provenientes del web y datos de campo (OCDE) | * Correlación entre datos provenientes del web y datos de campo (OCDE) | ||
* Evaluación | * Evaluación | ||
- | |Cartografías y estadísticas agregadas. | + | </ |
- | Correlación web vs. campo | + | |
- | |} | + | |
==== Acciones ==== | ==== Acciones ==== | ||
- | {|border=" | + | ^ Año ^ Acciones |
- | !Año | + | | 1 | < |
- | !Acciones | + | |
- | |- | + | |
- | |1 | + | |
- | | | + | |
* Misión de de 15 días para 2 investigadores mexicanos en Francia. | * Misión de de 15 días para 2 investigadores mexicanos en Francia. | ||
* Misión de 15 días para 2 investigadores franceses en México. | * Misión de 15 días para 2 investigadores franceses en México. | ||
* Misión de un mes para un doctorando francés en México | * Misión de un mes para un doctorando francés en México | ||
* Publicación conjunta de un artículo de posicionamiento del tema. | * Publicación conjunta de un artículo de posicionamiento del tema. | ||
- | |- | + | </ |
- | |2 | + | | 2 | < |
- | | | + | |
* Misión de de 15 días para 2 investigadores mexicanos en Francia. | * Misión de de 15 días para 2 investigadores mexicanos en Francia. | ||
* Misión de 15 días para 2 investigadores franceses en México. | * Misión de 15 días para 2 investigadores franceses en México. | ||
* Publicación conjunta de resultados preliminares | * Publicación conjunta de resultados preliminares | ||
- | |- | + | </ |
- | |3 | + | | 3 | < |
- | | | + | |
* Misión de de 15 días para 2 investigadores mexicanos en Francia. | * Misión de de 15 días para 2 investigadores mexicanos en Francia. | ||
* Misión de 15 días para 2 investigadores franceses en México. | * Misión de 15 días para 2 investigadores franceses en México. | ||
* Publicación conjunta de resultados preliminares | * Publicación conjunta de resultados preliminares | ||
- | |- | + | </ |
- | |4 | + | | 4 | < |
- | | | + | |
* Misión de de 15 días para 2 investigadores mexicanos en Francia. | * Misión de de 15 días para 2 investigadores mexicanos en Francia. | ||
* Misión de 15 días para 2 investigadores franceses en México. | * Misión de 15 días para 2 investigadores franceses en México. | ||
Ligne 313: | Ligne 248: | ||
* Participación conjunta en el tribunal de titulación para el estudiante de doctorado financiado por CONACYT | * Participación conjunta en el tribunal de titulación para el estudiante de doctorado financiado por CONACYT | ||
* Publicación conjunta de los resultados del proyecto en una revista indizada JCR | * Publicación conjunta de los resultados del proyecto en una revista indizada JCR | ||
- | |} | + | </ |
===== Resultados esperados y beneficios globales del proyecto ===== | ===== Resultados esperados y beneficios globales del proyecto ===== | ||
==== Resultados esperados ==== | ==== Resultados esperados ==== | ||
Ligne 330: | Ligne 264: | ||
Finalmente, dado que se contempla la formación doctoral de al menos un estudiante mexicano, este tendrá una incorporación a futuro en México, lo cual redundaría también en un impacto a nivel social. | Finalmente, dado que se contempla la formación doctoral de al menos un estudiante mexicano, este tendrá una incorporación a futuro en México, lo cual redundaría también en un impacto a nivel social. | ||
==== Participación de cada investigador y producto de su trabajo ==== | ==== Participación de cada investigador y producto de su trabajo ==== | ||
- | {|border=" | + | |
- | !Año | + | ^ Año ^ Actividades |
- | !Actividades | + | | 1 | < |
- | !Investigador | + | |
- | |- | + | |
- | |1 | + | |
- | | | + | |
- Estado del arte | - Estado del arte | ||
- //Testbed// a partir del corpus CIDESAL (Conacyt + Conicet + Colciencias) | - //Testbed// a partir del corpus CIDESAL (Conacyt + Conicet + Colciencias) | ||
Ligne 343: | Ligne 273: | ||
- Guía ética y código de transparencia para la manipulación de datos biográficos provenientes del web | - Guía ética y código de transparencia para la manipulación de datos biográficos provenientes del web | ||
- Casos de uso | - Casos de uso | ||
- | | | + | </ |
* Doctorando beca Conacyt | * Doctorando beca Conacyt | ||
* Ehab Hassan | * Ehab Hassan | ||
Ligne 355: | Ligne 285: | ||
* Jean Baptiste Meyer | * Jean Baptiste Meyer | ||
* Fernando Lozano Ascencio | * Fernando Lozano Ascencio | ||
- | |- | + | </ |
- | |2 | + | | 2 | < |
- | | | + | |
- Clustering de los resultados de Unoporuno usando WSI (Word Sense Induction) | - Clustering de los resultados de Unoporuno usando WSI (Word Sense Induction) | ||
- Ontología de ámbitos de experiencia/ | - Ontología de ámbitos de experiencia/ | ||
Ligne 363: | Ligne 292: | ||
- Extracción de eventos + evaluación | - Extracción de eventos + evaluación | ||
- Gramática formal para el reconocimiento de nombres de personas en español, francés, inglés y alemán + evaluación | - Gramática formal para el reconocimiento de nombres de personas en español, francés, inglés y alemán + evaluación | ||
- | | | + | </ |
* Doctorando beca Conacyt | * Doctorando beca Conacyt | ||
* Jorge García Flores | * Jorge García Flores | ||
Ligne 370: | Ligne 299: | ||
* Davide Buscaldi | * Davide Buscaldi | ||
* Luis A. Pineda C. | * Luis A. Pineda C. | ||
- | |- | + | </ |
- | |3 | + | | 3 | < |
- | | | + | |
- Integración Unoporuno+FRED | - Integración Unoporuno+FRED | ||
- FRED multilingüe | - FRED multilingüe | ||
Ligne 379: | Ligne 307: | ||
- Algoritmos de aprendizaje automático para la clasificación de las trayectorias profesionales | - Algoritmos de aprendizaje automático para la clasificación de las trayectorias profesionales | ||
- Validación sociológica de las primeras cartografías individuales | - Validación sociológica de las primeras cartografías individuales | ||
- | | | + | </ |
* Doctorando beca Conacyt | * Doctorando beca Conacyt | ||
* Jorge García Flores | * Jorge García Flores | ||
Ligne 388: | Ligne 316: | ||
* Iván Vladimir Meza R. | * Iván Vladimir Meza R. | ||
* Davide Buscaldi | * Davide Buscaldi | ||
- | |- | + | </ |
- | |4 | + | | 4 | < |
- | | | + | |
- Cartografías y estadísticas agregadas. | - Cartografías y estadísticas agregadas. | ||
- Correlación web vs. campo | - Correlación web vs. campo | ||
- Correlación entre datos provenientes del web y datos de campo (OCDE) | - Correlación entre datos provenientes del web y datos de campo (OCDE) | ||
- Evaluación | - Evaluación | ||
- | + | </ | |
- | | | + | |
* Doctorando beca Conacyt | * Doctorando beca Conacyt | ||
* Jorge García Flores | * Jorge García Flores | ||
Ligne 405: | Ligne 331: | ||
* Fernando Lozano Ascencio | * Fernando Lozano Ascencio | ||
* Luis A. Pineda C. | * Luis A. Pineda C. | ||
- | |} | + | </ |
==== Actividades del estudiante de doctorado a realizar en el proyecto y plan de trabajo del mismo ==== | ==== Actividades del estudiante de doctorado a realizar en el proyecto y plan de trabajo del mismo ==== | ||
- | {|border=" | + | ^ Año ^ Actividades |
- | !Año | + | | 1 | < |
- | !Actividades | + | |
- | !Objetivo | + | |
- | |- | + | |
- | |1 | + | |
- | | | + | |
* Estudio del estado del arte sobre las herramientas actuales en expert finding. | * Estudio del estado del arte sobre las herramientas actuales en expert finding. | ||
* Estudio de técnicas para la extracción terminológica en dominios específicos y ontologías. | * Estudio de técnicas para la extracción terminológica en dominios específicos y ontologías. | ||
* Análisis de representaciones textuales efectivos en la extracción de información. | * Análisis de representaciones textuales efectivos en la extracción de información. | ||
- | |Identificar los conceptos teóricos necesarios para el desarrollo del proyecto en cuestión. | + | </ |
- | |- | + | | 2 | < |
- | |2 | + | |
- | | | + | |
* Desarrollo de una metodología para la minería semántica en el dominio específico del problema a tratar. | * Desarrollo de una metodología para la minería semántica en el dominio específico del problema a tratar. | ||
* Integración entre FRED y Unoporuno. | * Integración entre FRED y Unoporuno. | ||
- | |Identificar la metodología adecuada (incluyendo herramientas y técnicas) para usar métodos de minería de textos que permitan extraer información de calidad/ | + | </ |
- | |- | + | | 3 | < |
- | |3 | + | |
- | | | + | |
* Desarrollo de las herramientas de cartografía para la visualización de las trayectorias profesionales individuales. | * Desarrollo de las herramientas de cartografía para la visualización de las trayectorias profesionales individuales. | ||
* Cytoscape. | * Cytoscape. | ||
- | |Construir una herramienta de visualización cartográfica biográfica para el dominio de las diásporas calificadas. | + | </ |
- | |- | + | | 4 | < |
- | |4 | + | |
- | | | + | |
* Análisis cualitativo de la agregación cartográfica y estadística. | * Análisis cualitativo de la agregación cartográfica y estadística. | ||
- | |Evaluar la exactitud de las trayectorias profesionales construidas. | + | </ |
- | |} | + | |
===== Antecedentes de cooperación ===== | ===== Antecedentes de cooperación ===== | ||
Ligne 524: | Ligne 438: | ||
=== Pierre Zweigenbaum === | === Pierre Zweigenbaum === | ||
< | < | ||
- | pz@limsi.fr | + | [[pz@limsi.fr]] |
(+33) 01 69 85 80 04 | (+33) 01 69 85 80 04 | ||
LIMSI-CNRS BP 133, F-91403 ORSAY CEDEX | LIMSI-CNRS BP 133, F-91403 ORSAY CEDEX | ||
Ligne 531: | Ligne 445: | ||
=== Christian Licoppe === | === Christian Licoppe === | ||
< | < | ||
- | licoppe@enst.fr | + | [[licoppe@enst.fr]] |
(+33)1 45 81 81 16 | (+33)1 45 81 81 16 | ||
ENST, Département EGSH | ENST, Département EGSH | ||
Ligne 538: | Ligne 452: | ||
===== Liens ===== | ===== Liens ===== | ||
- | * Dossier du projet soumis à l' | + | * Dossier du projet soumis à l' |
- | * * [[Reingeniería de una aplicación de minería de datos para el rastreo del talento altamente calificado en la Web|Reenginering of a data mining application for tracing highly qualified inmigrants]] | + | * * [[equipes: |
===== ToDo ===== | ===== ToDo ===== | ||
- To confirm the intrest of all the consortium members | - To confirm the intrest of all the consortium members |