| Les deux révisions précédentes
Révision précédente
Prochaine révision
|
Révision précédente
|
equipes:rcln:ancien_wiki:projets:golfred:es [2019/04/08 13:50] rosse [La generación de lenguaje natural] |
equipes:rcln:ancien_wiki:projets:golfred:es [2020/11/23 18:42] (Version actuelle) garciaflores ↷ Liens modifiés en raison d'un déplacement. |
| ====== Golfred: Generación de relatos de experiencias espaciales en robots de servicio por extracción de conocimiento a partir de textos ====== | ====== Golfred: Generación de relatos de experiencias espaciales en robots de servicio por extracción de conocimiento a partir de textos ====== |
| |
| //Proyecto financiado por la Agencia Universitaria de la Francofonía (iniciativa [[equipes:rcln:projets:pirat_2015|]])//. [[equipes:rcln:projets:golfred|Versión en francés acá]] y [[equipes:rcln:projets:golfred:machine_reading_service_robots|resumen en inglés aquí]]. | //Proyecto financiado por la Agencia Universitaria de la Francofonía (iniciativa [[equipes:rcln:ancien_wiki:projets:pirat_2015]])//. [[equipes:rcln:ancien_wiki:projets:golfred|Versión en francés acá]] y [[equipes:rcln:ancien_wiki:projets:golfred:machine_reading_service_robots|resumen en inglés aquí]]. |
| |
| ===== Resumen ===== | ===== Resumen ===== |
| Every cat is an animal. Every dog is an animal. Every horse is an animal. Every rabbit is an animal. | Every cat is an animal. Every dog is an animal. Every horse is an animal. Every rabbit is an animal. |
| |
| Los trabajos basados en una perspectiva estadística utilizan un corpus paralelo que alinea texto y datos para de ahí aprender un modelo que permita generar texto a partir de nuevos datos. (Konstas y Lapata 2012)<ref>Konstas, Ioannis, and Mirella Lapata. "Unsupervised concept-to-text generation with hypergraphs." Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 3 Jun. 2012: 752-761. </ref> aprenden una gramática libre de contexto probabilista que describe cómo (en qué orden u con qué palabras) verbalizar las entradas y los campos en una base de datos y un texto paralelo . (Angeli et al 2010)<ref>Angeli, Gabor, Percy Liang, and Dan Klein. "A simple domain-independent probabilistic approach to generation." Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing 9 Oct. 2010: 502-512.</ref> prefieren una perspectiva en donde el proceso de generación es descompuesto en una secuencia de decisiones locales organizadas de manera jerárquica y aprendidas con un modelo discriminante. (Wong y Moonery 2007)<ref>Wong, Yuk Wah, and Raymond J Mooney. "Generation by Inverting a Semantic Parser that Uses Statistical Machine Translation." HLT-NAACL 2007: 172-179.</ref> adaptan un sistema de traducción automática para aprender un modelo que permita traducir los datos en texto. Si estos trabajos son con frecuencia eficaces y robustos, la calidad de la frases producidas es muy aleatoria. Otro inconveniente mayor de estos trabajos radica en la necesidad de disponer de un corpus paralelo de tamaño consecuente. Para cada nuevo dominio abordado, es necesario crear un nuevo corpus. | Los trabajos basados en una perspectiva estadística utilizan un corpus paralelo que alinea texto y datos para de ahí aprender un modelo que permita generar texto a partir de nuevos datos. (Konstas y Lapata 2012)[(Konstas, Ioannis, and Mirella Lapata. "Unsupervised concept-to-text generation with hypergraphs." Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 3 Jun. 2012: 752-761. )] aprenden una gramática libre de contexto probabilista que describe cómo (en qué orden u con qué palabras) verbalizar las entradas y los campos en una base de datos y un texto paralelo . (Angeli et al 2010)[(Angeli, Gabor, Percy Liang, and Dan Klein. "A simple domain-independent probabilistic approach to generation." Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing 9 Oct. 2010: 502-512.)] prefieren una perspectiva en donde el proceso de generación es descompuesto en una secuencia de decisiones locales organizadas de manera jerárquica y aprendidas con un modelo discriminante. (Wong y Moonery 2007)[(Wong, Yuk Wah, and Raymond J Mooney. "Generation by Inverting a Semantic Parser that Uses Statistical Machine Translation." HLT-NAACL 2007: 172-179.)] adaptan un sistema de traducción automática para aprender un modelo que permita traducir los datos en texto. Si estos trabajos son con frecuencia eficaces y robustos, la calidad de la frases producidas es muy aleatoria. Otro inconveniente mayor de estos trabajos radica en la necesidad de disponer de un corpus paralelo de tamaño consecuente. Para cada nuevo dominio abordado, es necesario crear un nuevo corpus. |
| |
| En fechas recientes han sido propuestos trabajos híbridos simbólicos/estadísticos o puramente estadísticos que combinan patrones lingüísticos e información o modelos estadísticos para generar texto. (Cimiano et al. 2013)<ref>Cimiano, Philipp et al. "Exploiting ontology lexica for generating natural language texts from RDF data." (2013).</ref> aprenden probabilidades de las estructuras sintácticas de un corpus específico al dominio en cuestión para posteriormente utilizar estas probabilidades para seleccionar, durante la fase de generación, el árbol sintáctico que maximiza un score que toma en cuenta la probabilidad normalizada de los árboles sintácticos, las categorías sintácticas, los sinónimos y los sentidos léxicos de las palabras etiquetadas en el árbol y los scores dados para cada alternativa del modelo de lenguaje. (Kondadadi et al. 2013)<ref>Kondadadi, Ravi, Blake Howald, and Frank Schilder. "A Statistical NLG Framework for Aggregated Planning and Realization." ACL (1) 6 Aug. 2013: 1406-1415. </ref> presentan una propuesta estadística en la cual los patrones de frases aprendidos automáticamente a partir de un corpus de textos son ordenados de acuerdo a su posición en el texto utilizando un modelo de Máquina de vectores de soporte (SVM). Finalmente, (Perez-Beltrachini et al. 2013)<ref name="beltrachini">Laura Perez-Beltrachini, Claire Gardent and Enrico Franconi. //Incremental Query Generation//. EACL 2014,. Gothenburg, Sweden, April 2014. | En fechas recientes han sido propuestos trabajos híbridos simbólicos/estadísticos o puramente estadísticos que combinan patrones lingüísticos e información o modelos estadísticos para generar texto. (Cimiano et al. 2013)[(Cimiano, Philipp et al. "Exploiting ontology lexica for generating natural language texts from RDF data." (2013).)] aprenden probabilidades de las estructuras sintácticas de un corpus específico al dominio en cuestión para posteriormente utilizar estas probabilidades para seleccionar, durante la fase de generación, el árbol sintáctico que maximiza un score que toma en cuenta la probabilidad normalizada de los árboles sintácticos, las categorías sintácticas, los sinónimos y los sentidos léxicos de las palabras etiquetadas en el árbol y los scores dados para cada alternativa del modelo de lenguaje. (Kondadadi et al. 2013)[(Kondadadi, Ravi, Blake Howald, and Frank Schilder. "A Statistical NLG Framework for Aggregated Planning and Realization." ACL (1) 6 Aug. 2013: 1406-1415. )] presentan una propuesta estadística en la cual los patrones de frases aprendidos automáticamente a partir de un corpus de textos son ordenados de acuerdo a su posición en el texto utilizando un modelo de Máquina de vectores de soporte (SVM). Finalmente, (Perez-Beltrachini et al. 2013)[(beltrachini>Laura Perez-Beltrachini, Claire Gardent and Enrico Franconi. //Incremental Query Generation//. EACL 2014,. Gothenburg, Sweden, April 2014. |
| </ref> presentan un método híbrido para la verbalización de consultas sobre bases de conocimiento que combina un léxico construido automáticamente a partir de nombres de relaciones entre conceptos de la base de conocimiento, una gramática manualmente elaborada y un algoritmo de heurística en haz (//beam search//). Una ventaja mayor, común a estos trabajos, es que minimizan la necesidad de especificaciones manuales (construcción de corpus paralelos, léxicos, gramáticas) al tiempo que preservan la posibilidad de generar textos variados y de buena calidad (sin lenguaje controlado). | )] presentan un método híbrido para la verbalización de consultas sobre bases de conocimiento que combina un léxico construido automáticamente a partir de nombres de relaciones entre conceptos de la base de conocimiento, una gramática manualmente elaborada y un algoritmo de heurística en haz (//beam search//). Una ventaja mayor, común a estos trabajos, es que minimizan la necesidad de especificaciones manuales (construcción de corpus paralelos, léxicos, gramáticas) al tiempo que preservan la posibilidad de generar textos variados y de buena calidad (sin lenguaje controlado). |
| |
| Para generar las descripciones de itinerarios producidas por Golem y FRED, nos proponemos aplicar un sistema híbrido simbólico/estadístico desarrollado en el laboratorio LORIA por el equipo SYNALP. Este trabajo se basa en el modelo Quelo-RTGen presentado por (Perez-Beltrachini et al. 2013) <ref name="beltrachini">Laura Perez-Beltrachini, Claire Gardent and Enrico Franconi. //Incremental Query Generation//. EACL 2014, Gothenburg, Sweden, April 2014.</ref> y combina: | Para generar las descripciones de itinerarios producidas por Golem y FRED, nos proponemos aplicar un sistema híbrido simbólico/estadístico desarrollado en el laboratorio LORIA por el equipo SYNALP. Este trabajo se basa en el modelo Quelo-RTGen presentado por (Perez-Beltrachini et al. 2013) [(beltrachini>Laura Perez-Beltrachini, Claire Gardent and Enrico Franconi. //Incremental Query Generation//. EACL 2014, Gothenburg, Sweden, April 2014.)] y combina: |
| |
| - un generador de léxico que permite construir un léxico automáticamente a partir de nombres de redlaciones y de conceptos de la base de conocimientos considerada | - un generador de léxico que permite construir un léxico automáticamente a partir de nombres de redlaciones y de conceptos de la base de conocimientos considerada |
| |
| ===== Presupuesto ===== | ===== Presupuesto ===== |
| {|border="1" | ^ **Concepto** ^ **Duración** ^ **Monto** ^ |
| |<center>**Concepto**</center> | | Seminario y reuniones de investigación de Aldo Gangemi (LIPN - Universidad de París 13) en el IIMAS | 5 días | €2000 | |
| |**Duración** | | Seminario y reuniones de investigación de Luis Pineda (IIMAS, UNAM) en la Universidad de París 13 | 5 dias | €2000 | |
| |**Monto** | | Seminario y reuniones de investigación de Claire Gardent (LORIA/CNRS) en el IIMAS | 5 dias | €2000 | |
| |- | | Contratación de un joven investigador (nivel licenciatura o maestría) para el desarrollo de una interfaz FRED+GOLEM en el IIMAS | 720 horas sobre 6 meses | €3000 | |
| |Seminario y reuniones de investigación de Aldo Gangemi (LIPN - Universidad de París 13) en el IIMAS | | Contratación de un joven investigador en el CNRS/LORIA para la generación de relatos coherentes a partir de experiencias espaciales del robot Golem (CNRS/LORIA completará este presupuesto con €3000 más para contratar al joven investigador por 6 meses | 360 horas sobre 3 meses | €3000 | |
| |5 días | | //Total// | | **€12000** | |
| |€2000 | |
| |- | |
| |Seminario y reuniones de investigación de Luis Pineda (IIMAS, UNAM) en la Universidad de París 13 | |
| |5 dias | |
| |€2000 | |
| |- | |
| |Seminario y reuniones de investigación de Claire Gardent (LORIA/CNRS) en el IIMAS | |
| |5 dias | |
| |€2000 | |
| |- | |
| |Contratación de un joven investigador (nivel licenciatura o maestría) para el desarrollo de una interfaz FRED+GOLEM en el IIMAS | |
| |720 horas sobre 6 meses | |
| |€3000 | |
| |- | |
| |Contratación de un joven investigador en el CNRS/LORIA para la generación de relatos coherentes a partir de experiencias espaciales del robot Golem (CNRS/LORIA completará este presupuesto con €3000 más para contratar al joven investigador por 6 meses | |
| |360 horas sobre 3 meses | |
| |€3000 | |
| |- | |
| |<center>//Total//</center> | |
| | | |
| |**€12000** | |
| |- | |
| |} | |
| |
| ===== Plan de trabajo ===== | ===== Plan de trabajo ===== |
| ==== [[Golfred Phase 1: First in vitro path|Etapa 1: primer trayecto //in vitro//]] ==== | ==== Etapa 1: primer trayecto "in vitro" ==== |
| | [[equipes:rcln:ancien_wiki:projets:golfred:phase_1]] |
| * Inicio: //Septiembre de 2015// | * Inicio: //Septiembre de 2015// |
| * Duración: 1 mes | * Duración: 1 mes |
| * Duración: 0.5 meses | * Duración: 0.5 meses |
| * Responsables: IIMAS, LIPN | * Responsables: IIMAS, LIPN |
| === 2:Búsqueda de las frases y las palabras clave encontradas por el Golem con el //web service// de FRED === | === 2:Búsqueda de las frases y las palabras clave encontradas por el Golem con el "web service" de FRED === |
| * Duración: 0.25m | * Duración: 0.25m |
| * Responsable: LIPN | * Responsable: LIPN |
| * Responsables: IIMAS, LIPN | * Responsables: IIMAS, LIPN |
| |
| ==== Etapa 2: Extracción de conocimiento semántico (//machine reading//) con FRED y optimización del trayecto //in vitro// ==== | ==== Etapa 2: Extracción de conocimiento semántico ("machine reading") con FRED y optimización del trayecto "in vitro" ==== |
| * Inicio: //Octubre de 2015// | * Inicio: "Octubre de 2015" |
| * Duración: 6 meses | * Duración: 6 meses |
| |
| === 1:Contratación del Joven Investigador 1 (JI1) === | === 1:Contratación del Joven Investigador 1 (JI1) === |
| === 2:Desarrollo de un método de evaluación para trayectos //in vitro// === | === 2:Desarrollo de un método de evaluación para trayectos "in vitro" === |
| * Duración: 1m | * Duración: 1m |
| * Responsable: JI1, IIMAS, LIPN | * Responsable: JI1, IIMAS, LIPN |
| === 3:Desarrollo y optimización de un //fork// de FRED adaptado al Golem === | === 3:Desarrollo y optimización de un "fork" de FRED adaptado al Golem === |
| * Duración: 2m | * Duración: 2m |
| * Responsable: JI1, LIPN | * Responsable: JI1, LIPN |
| * Duración: 1m | * Duración: 1m |
| * Responsable: JI1, IIMAS, LIPN | * Responsable: JI1, IIMAS, LIPN |
| === 5:Optimización experimental del trayecto //in vitro// === | === 5:Optimización experimental del trayecto "in vitro" === |
| * Duración: 1m | * Duración: 1m |
| * Responsable: JI1 | * Responsable: JI1 |
| === 6:Documentación y publicación de los resultados //in vitro// === | === 6:Documentación y publicación de los resultados "in vitro" === |
| * Duración: 1m | * Duración: 1m |
| * Responsable: JI1 | * Responsable: JI1 |
| * Responsable: J12, CNRS/LORIA | * Responsable: J12, CNRS/LORIA |
| |
| ==== Etapa 4: Producción de un trayecto //in vivo// ==== | ==== Etapa 4: Producción de un trayecto "in vivo" ==== |
| * Inicio: //Agosto del 2016// | * Inicio: //Agosto del 2016// |
| * Duración: 2 meses | * Duración: 2 meses |
| * Duración: 1m | * Duración: 1m |
| * Responsable: IIMAS, CNRS/LORIA, LIPN | * Responsable: IIMAS, CNRS/LORIA, LIPN |
| === 2: Demostración pública en el museo científico //Universum// === | === 2: Demostración pública en el museo científico "Universum" === |
| * Duración: 1m | * Duración: 1m |
| * Responsable: IIMAS, LIPN | * Responsable: IIMAS, LIPN |
| |
| ===== Perspectivas ===== | ===== Perspectivas ===== |
| Desde el punto de vista de la robótica, este proyecto permitiría estudiar los vínculos entre la base de conocimientos de Golem<ref>Luis A. Pineda, Lisset Salinas, Ivan V. Meza, Caleb Rascon and Gibran Fuentes. SitLog: A Programming Language for Service Robot Tasks. Int J Adv Robot Syst, 2013</ref> en Prolog y las extensiones dinámicas posibles hacia la web semántica y el formato RDF. La idea que ante situaciones y tareas imprevistas el robot pueda apoyarse en la web semántica podría dar lugar a nuevos métodos para estructurar los comportamientos dinámicos en los modelos cognitivos propios de la robótica de servicio. Además el proyecto permitiría también preparar el terreno para una implementación multilingüe a mediano plazo, en particular de la lectura de textos ambientales y la producción de relatos de experiencias espaciales en lengua francesa. | Desde el punto de vista de la robótica, este proyecto permitiría estudiar los vínculos entre la base de conocimientos de Golem[(Luis A. Pineda, Lisset Salinas, Ivan V. Meza, Caleb Rascon and Gibran Fuentes. SitLog: A Programming Language for Service Robot Tasks. Int J Adv Robot Syst, 2013)] en Prolog y las extensiones dinámicas posibles hacia la web semántica y el formato RDF. La idea que ante situaciones y tareas imprevistas el robot pueda apoyarse en la web semántica podría dar lugar a nuevos métodos para estructurar los comportamientos dinámicos en los modelos cognitivos propios de la robótica de servicio. Además el proyecto permitiría también preparar el terreno para una implementación multilingüe a mediano plazo, en particular de la lectura de textos ambientales y la producción de relatos de experiencias espaciales en lengua francesa. |
| |
| El multilingüismo enriquecería igualmente al sistema FRED<ref name="fred"></ref>, herramienta utilizada en la extracción de conocimientos para la web semántica. En la actualidad FRED ha sido probado sólo en lengua inglesa. Si bien el objetivo de este proyecto es el tratamiento y generación de textos en inglés, el financiamiento de la AUF nos permitiría reforzar la perspectiva de una producción en español y francés en el mediano plazo. Esto aunado a que el hecho de embarcar FRED en un dispositivo sin conectividad a internet podría dar lugar a una nueva familia de aplicaciones embarcadas que se apoyen en la web semántica. | El multilingüismo enriquecería igualmente al sistema FRED[(fred)], herramienta utilizada en la extracción de conocimientos para la web semántica. En la actualidad FRED ha sido probado sólo en lengua inglesa. Si bien el objetivo de este proyecto es el tratamiento y generación de textos en inglés, el financiamiento de la AUF nos permitiría reforzar la perspectiva de una producción en español y francés en el mediano plazo. Esto aunado a que el hecho de embarcar FRED en un dispositivo sin conectividad a internet podría dar lugar a una nueva familia de aplicaciones embarcadas que se apoyen en la web semántica. |
| |
| Desde una perspectiva de generación de texto, este proyecto permitiría a su vez la implementación de una arquitectura de generación de textos a partir de datos en RDF. Como bien apuntan (Rector et.al. 2004) <ref>A. Rector, N. Drummond, M. Horridge, J. Rogers, H. Knublauch, R. Stevens, H. Wang, and C. Wroe. Owl pizzas: Practical experience of teaching owl-dl: Common errors & common patterns. Engineering Knowledge | Desde una perspectiva de generación de texto, este proyecto permitiría a su vez la implementación de una arquitectura de generación de textos a partir de datos en RDF. Como bien apuntan (Rector et.al. 2004) [(A. Rector, N. Drummond, M. Horridge, J. Rogers, H. Knublauch, R. Stevens, H. Wang, and C. Wroe. Owl pizzas: Practical experience of teaching owl-dl: Common errors & common patterns. Engineering Knowledge |
| in the Age of the Semantic Web, pages 63–81, 2004.</ref>, los estándares establecidos por la comunidad de la web semántica (RDF, OWL) son de muy difícil comprensión y manipulación para los seres humanos. Con el desarrollo de la web semántica y el auge de los datos vinculados (//linked data//), la proliferación de bases de conocimiento y, más generalmente, de datos masivos hay una nueva necesidad de desarrollar tecnologías que permitan a los seres humanos un acceso simple y natural a los datos tratados y producidos por la maquinaria de la web de datos. Los sistemas aquí propuestos intentan transformar datos en texto y representan un medio natural, intuitivo y coherente de transormación de datos. Más generalmente, estos sistemas facilitan el acceso para usuarios no expertos a datos vinculados o bases de conocimiento y a su vez permiten guiar al usuario en la formulación de consultas hacia estas bases. En realidad, la generación de lenguaje natural es percibida cada vez más como una ventaja competitiva (//game changing//) por la cual las nuevas compañías emergentes buscan reformular el acceso masivo a la abuntantísima cantidad de información propia del mundo contemporáneo. | in the Age of the Semantic Web, pages 63–81, 2004.)], los estándares establecidos por la comunidad de la web semántica (RDF, OWL) son de muy difícil comprensión y manipulación para los seres humanos. Con el desarrollo de la web semántica y el auge de los datos vinculados (//linked data//), la proliferación de bases de conocimiento y, más generalmente, de datos masivos hay una nueva necesidad de desarrollar tecnologías que permitan a los seres humanos un acceso simple y natural a los datos tratados y producidos por la maquinaria de la web de datos. Los sistemas aquí propuestos intentan transformar datos en texto y representan un medio natural, intuitivo y coherente de transormación de datos. Más generalmente, estos sistemas facilitan el acceso para usuarios no expertos a datos vinculados o bases de conocimiento y a su vez permiten guiar al usuario en la formulación de consultas hacia estas bases. En realidad, la generación de lenguaje natural es percibida cada vez más como una ventaja competitiva (//game changing//) por la cual las nuevas compañías emergentes buscan reformular el acceso masivo a la abuntantísima cantidad de información propia del mundo contemporáneo. |
| |
| ===== Referencias ===== | ===== Referencias ===== |
| <references/> | ~~REFNOTES~~ |
| ===== Enlaces ===== | ===== Enlaces ===== |
| - [[http://63.84.220.100/csdl/proceedings/crv/2009/3651/00/3651a093.pdf|Towards navigation summaries]] | - [[http://63.84.220.100/csdl/proceedings/crv/2009/3651/00/3651a093.pdf|Towards navigation summaries]] |
| - [[http://books.google.com.mx/books/about/Text_generation.html?id=Ex6xZlxvUywC&redir_esc=y|**Text Generation** by Kathleen McKeown]] | - [[http://books.google.com.mx/books/about/Text_generation.html?id=Ex6xZlxvUywC&redir_esc=y|**Text Generation** by Kathleen McKeown]] |
| - [[http://wit.istc.cnr.it/stlab-tools/fred|Demo de FRED]] | - [[http://wit.istc.cnr.it/stlab-tools/fred|Demo de FRED]] |
| - [[Pistas|para una colaboración posible entre el IIMAS y el LIPN]] | - [[equipes:rcln:ancien_wiki:projets:colaboracion_iimas_lipn]] |
| - [[Golfred.G:|plan de trabajo 2015]] | - [[equipes:rcln:ancien_wiki:projets:golfred:plan_trabajo_2015]] |
| - [[https://trello.com/b/nImaPxh4/golfred|Golfred.trello]] | - [[https://trello.com/b/nImaPxh4/golfred|Golfred.trello]] |
| - [[https://github.com/rcln/Golfred|Golfred Github]] | - [[https://github.com/rcln/Golfred|Golfred Github]] |