Golfred: Generación de relatos de experiencias espaciales en robots de servicio por extracción de conocimiento a partir de textos

Proyecto financiado por la Agencia Universitaria de la Francofonía (iniciativa PIRAT 2015). Versión en francés acá y resumen en inglés aquí.

El objetivo del proyecto consiste en dotar a un robot de la capacidad de leer las frases que va encontrando en su camino y de realizar un relato de lo que leyó al final del trayecto. He aquí un ejemplo del tipo de relato que el robot debería producir al recorrer el laboratorio:

Entré en la oficina de Iván V. Meza Ruiz. Iván V. Meza Ruiz es técnico académico en el IIMAS, UNAM trabajando en el Departamento de Ciencias de la Computación como parte del grupo de investigación Golem. Dentro de su oficina leí un poster con la frase Tonerre de Brest. Esta frase es la expresión favorita del capitán Haddock, conocido personaje del cómic Las Aventuras de Tintin, del caricaturista belga Hergé. Después salí al corredor y vi un letrero con la frase Ruta de evacuación. Una “Ruta de evacuación” es una estructura de salida especial para emergencias, tales como un incendio o temblor.

Nuestra hipótesis es que la producción de este tipo de relatos es posible a partir adaptando el sistema de machine reading FRED (desarrollado por Aldo Gangemi, profesor en la Universidad de París 13 y su equipo) como un agente de lectura para el robot Golem (desarrollado por el equipo de investigación de Luis Pineda en el IIMAS) y adaptando asimismo el sistema de generación de textos RTGen (desarrollado por Claire Gardent y su equipo en el LORIA de Nancy). El robot cuenta con la capacidad de desplazarse en el espacio físico y reconocer las frases escritas que se encuentra en su camino, mientras que FRED es capaz de buscar e interpretar palabras clave o frases en DBPedia, la base de datos de Wikipedia. Suponemos que la adaptación de RTGen a los datos RDF de DBPedia permitirá transformar el grafo RDF construido por FRED en un texto que describa el trayecto de Golem. El principal criterio discursivo para la generación del relato será desde luego la experiencia espacial: Golem (con la asistencia de FRED y RTGen) cuenta lo que leyó (y buscó en Wikipedia) a lo largo del camino.

  • Luis A. Pineda C. (coordinador)
  • Iván Vladimir Meza R.
  • Aldo Gangemi (coordinador)
  • Jorge Garcia Flores
  • Davide Buscaldi
  • Claire Gardent (coordinadora)
  • Laura Perez-Beltrachini

La robótica de servicio está considerada como un eje estratégico del del desarrollo industrial en los próximos 20 años 1). Un aspecto fundamental de la robótica de servicio es la cuestión de la adquisición del conocimiento necesario para que un robot razone en un medio ambiente informacional incompleto: una situación en donde no es posible prever completamente y de manera anticipada la tarea por realizar 2). Cierta información importante podría encontrarse escrita en los textos presentes en el medio ambiente inmediato del robot. Para que un robot pueda acceder al sentido de estos textos es indispensable implementar un comportamiento onomasiológico 3), es decir, un sistema de algoritmos cuyo resutado será un proceso de lectura por medio del cual un robot sea capaz de percibir los textos presentes en su medio ambiente espacial, de transcribir esta señal visual en una cadena de caracteres y de descifrar el sentido de esta cadena para atribuirle una interpretación semántica.

La web puede ser utilizada como un amplificador de conocimiento en el caso de que la interpretación de un texto ambiental no se encuentre en la base de conocimientos propia del robot 4) o cuando el robot necesite información complementaria con respecto a un mensaje escrito, proveniente del medio ambiente visual. Nuestra propuesta consiste en extender las capacidades informacionales de un robot con un sistema de extracción de conocimientos proveniente de la web semántica. Así, nuestra intención es establecer un vínculo entre la base de conocimientos necesaria para las tareas estáticas (es decir, cuyo desarrollo es conocido de antemano) y las tareas dinámicas, en donde el robot deberá enfrentar circunstancias, instrucciones y mensajes cuyo sentido ignora. Son éstas últimas las que serían objeto de solicitudes hacia la web semántica con la finalidad de encontrar una interpretación semántica adecuada.

Como, entonces, evaluar si la interpretación semántica elegida por el robot para cierto texto ambiental es la adecuada? Para tal efecto, proponemos atribuirle también un comportamiento semasiológico 5), es decir, la capacidad de generar un relato basado en un experiencia espacial y en los textos que el robot ha logrado leer en su trayecto. El uso de algoritmos de generación de lenguaje natural se hace aquí indispensable. Luego entonces, la tarea que aquí proponemos consiste en darle a un robot la capacidad de:

  • Realizar trayectos en el espacio (por ejemplo: un museo, un hospital, un laboratorio de investigación).
  • Leer los textos ambientales que encuentre durante su trayecto (por ejemplo: los nombres de personas sobre las puertas; el nombre de los medicamentos sobre la mesa de noche de los pacientes; las notas descriptivas junto a las obras en un museo; los mensajes de señalización).
  • Buscar el sentido de dichos textos ambientales.
  • Producir un relato de los lugares visitados así como de lo que leyó durante el trayecto.

Nuestra hipótesis consiste en suponer que es posible realizar esta tarea embarcando en el robot el sistema de extracción de conocimientos para la web semántica FRED6) y el sistema de generación de lenguaje natural del CNRS/LORIA7).

Exceptuando la modelización de diálogos, en la literatura son muy pocos trabajos de investigación que apliquen tecnologías del lenguaje a la robótica. Desde un punto de vista de investigación, la tarea que proponemos permitiría enfrentar una problemática científica interdisciplinaria. En robótica, deberemos implementar tanto los comportamientos necesarios al reconocimiento del texto ambiental a partir de la grabación de la cámara de video embarcada en el robot Golem, como los comportamientos asociados a la producción oral del relato al final del itinerario (con una perspectiva multilingüe en el mediano plazo). En cuanto a la extracción de conocimientos para la web semántica, el proyecto nos llevará a producir una versión del sistema FRED compatible con las restricciones en recursos de un robot sin conexión internet, y esto tomando también en cuenta un objetivo multilingüe a mediano plazo en cuanto al intercambio de mensajes de entrada. En cuanto a la generación de lenguaje natural, necesitaremos adaptar un sistema que peermita generar una descripción del itinerario de buena calidad y con un mínimo de intervención humana.

En cuanto al alcance de las lenguas procesadas, hubo muchas discusiones dentro del grupo acerca de la posibilidad de procesar la lengua francesa en la cadena de tratamiento que va de los textos que el robot reconoce y lee en su campo visual hasta la generación del relato de su itinerario. Sin embargo, dado que el financiamiento que solicitamos está orientado a pequeñas iniciativas de investigación y que las aptitudes complementarias de los participantes en el proyecto (robótica, reprecentación y tratamiento del conocimiento y generación de lenguaje natural) necesitarían en principio acordarse sobre un objetivo realizable, optamos finalmente por trabajar en esta primera etapa en lengua inglesa, idioma para el cual los diferentes módulos de la cadena de procesamiento ya han sido probados. Si se nos otorgara el financiamiento por parte de la AUF y el proyecto se lleva a cabo tal y como lo hemos previsto, seguramente nuestro trabajo sentaría las bases para plantear en el mediano plazo un proyecto más ambicioso, cuyo objetivo sería precisamente la generación de relatos en francés y en español. Por lo tanto nos comprometemos a hacer un esfuerzo de difusión y vulgarización en revistas y conferencias francoparlantes, así como a crear una red que a largo plazo se convierta en una pasarela científica para atraer a estudiantes mexicanos rumbo a estudios doctorales en Francia, en alguno de los laboratorios franceses participantes.

Por otra parte, desde un punto de vista científico la presente propuesta podría dar lugar a colaboraciones fructíferas en el campo de los modelos cognitivos para la robótica de servicio. Consideramos que el hecho de extender estos modelos con representaciones del conocimiento utilizadas en la web semántica es muy innovador y podría crear una inercia científica muy interesante entre nuestros respectivos equipos. Asimismo, la reunión de grupos de investigación en lenguaje natural con aptitudes interdisciplinarias podría dar lugar a otras iniciativas de investigación que reunieran a estos equipos.

La robótica de servicio estudia la estructura, el comportamiento y los mecanismos de composición susceptibles de ser aplicados en tareas prácticas efectuadas por una máquina capaz de evolucionar con cierta independencia del dominio8). Las tareas de la competición Robocup@Home9) son instancias prácticas (o pruebas de concepto en medio ambiente protegido, si se prefiere) de escenarios reales en donde el robot debe enfrentar circunstancias imprevistas. Desde esa perspectiva, podemos distinguir dos diferentes mecanismos de composición: uno estático, más adaptado a tareas en donde los datos y las variaciones posibles son conocidos de antemano, y otro dinámico para enfrentar escenarios en donde el robot debe enfrentarse a comandos arbitrarios o circunstancias en donde los datos de la tarea no son accesibles a priori.

El robot Golem ha participado en varias ediciones del torneo Robocup@Home [(Luis Pineda, The Golem Group: The Golem Team, RoboCup@Home 2011. Proceedings of Robocup 2011. vol --, pp 8. 2011.)][(german.open>Luis Pineda, The Golem Group: The Golem Team, RoboCup@Home 2012. Proceedings of Robocup 2012. vol , pp . 2012.)]10). La version actuelle du robot (Golem-III) est le résultat d'un travail entamé en 2002 avec un premier robot destiné à instancier un modèle de dialogue pour une activité conversationnelle.11). La versión actual del robot (Golem-III) es el resultado de un trabajo de investigación iniciado en 2002 con un primer robot dedicado a instanciar un modelo de diálogo para actividades conversacionales. En 2009 fue implementada una nueva versión con capacidades aumentadas de visión y reacción. Esta versión del Golem es capaz de jugar al juego de adivina una carta12) con los niños visitantes del museo científico Universum (UNAM). En 2010 fue producido Golem-II, un robot de servicio radicalmente diferente a sus predecesores, basado en una arquitectura cognitiva, un sistema de diálogo y un interprete de comandos (siendo estos tres elementos el núcleo del trabajo teórico). Es en este momento cuando el robot comienza a participar en la competencia Robocup@Home, en donde obtuvo el tercer lugar en 2012 13). La versión con la que llevaremos a cabo el presente proyecto es Golem-III.

ToDo: Foto de Golem-III

La tarea consistente en efectuar un trayecto, leer los textos encontrados en el camino y producir un relato bien informado al final de la tarea será implementada basándose en modelos de diálogo ya existentes (la estructura de la tarea) en donde habría dos comportamientos de base:

  • Leer los textos encontrados en el medio ambiente visual
  • Producir un relato oral a partir del texto generado por los agentes embarcados de extracción del conocimiento (FRED) y generación de lenguaje natural.

Actualmente existe ya una tarea que consiste en dirigir a un grupo de personas en un tour 14) que podría servir de base para la modelización de la nueva tarea que aquí proponemos, con interrupciones disparadas por señales visuales en lugar de las disparadas por señales sonoras de la tarea actual del tour.

La extracción del conocimientos a partir de textos ambientales que aquí proponemos (cuyo objetivo es encontrar el sentido de los mensajes que el robot Golem encuentra en su camino) se apoya en tecnologías desarrolladas para la web semántica, es decir, la red de datos auto-explícitos y fácilmente legibles para una máquina 15) extraídos a partir de documentos con bajo nivel de estructuración textual y disponibles en la web. FRED16) es una herramienta de lectura para la web semántica concebida en el marco de la creación de ontologías a partir de conocimiento expresado en lenguaje natural, y que se inspira de la DRT de Kamp y de la gramática de casos de Fillmore17). FRED recibe a manera de entrada una serie de frases en lenguaje natural para de ahí producir un grafo en RDF (el formato estándar de intercambio de datos de la web semántica). La idea es representar en este grafo un máximo de conocimiento extraído a partir de textos (nombres de personas, fechas, eventos, términos, taxonomías, relaciones entre entidades): el resultado es un grafo orientado cuyos nodos y arcos hacen referencia a datos estructurados y de libre acceso, como DBPedia (la base de datos de Wikipedia) y más generalmente a la nube de datos abiertos18).

Los objetivos científicos relativos a la extracción de conocimientos textuales por medio de FRED son:

  1. El desarrollo de una versión de FRED adaptada al robot Golem, lo cual implica la descarga de las fuentes de datos abiertos (como la DBPedia) para ser instaladas en la memoria local del robot, que en sí no cuenta con una conexión internet propia (como es el caso de la mayor parte de los robots que participan en el torneo RoboCup).
  2. La preparación de FRED para el multilingüismo. Actualmente FRED sólo está disponible en lengua inglesa. La incorporación de recursos multilingües como Babelnet permitiría preparar el terreno para que Golem genere relatos en francés y español a mediano plazo.
  3. Dado que el financiamiento solicitado concierne pequeñas iniciativas de investigación, la presente propuesta hace abstracción de ciertos problemas propios de un marco estrictamente aplicativo, en particular el de la elección de los textos ambientales más relevantes encontrados por el robot durante su trayecto. ¿Cómo separar lo importante (como por ejemplo, un letrero señalando la ruta de evacuación) de lo que no merece formar parte del relato (como por ejemplo, la marca de una botella de agua)? Para resolver este problema sería entonces necesario tomar en cuenta el contexto fenomenológico del robot (es decir, el contexto no textual), lo cual representa un reto científico muy atractivo. Una solución posible para este problema radica en la minería de los subgrafos producidos por FRED, para estimar los más relevantes.
  4. El hecho de considerar la web semántica como una posible extensión semántica para el robot implica la construcción de puentes teóricos y tecnológicos entre las bases de conocimiento y razonamiento del Golem (desarrolladas en Prolog) y las representaciones en RDF propias de la web semántica.

La generación de lenguaje natural tiene por objetivo la producción de un texto a partir de un conjunto de datos y de un objetivo comunicacional (explicar, comparar, describir, etc.). Los datos de entrada pueden ser de distintos tipos: datos numéricos, datos extraídos de una base de datos o de conocimientos o incluso de un texto. Con el desarrollo de la web semántica, la investigación en el desarrollo de sistemas de generación capaces de producir texto a partir de datos representados en los formatos habituales de la web semántica (OWL, RDF, etc.) se ha intensificado. Podemos distinguir tres grandes corrientes de investigación. Los trabajos basados en lenguajes controlados (Controled Natural Language, CNL), los trabajos basados en modelos de aprendizaje estadístico a partir de un corpus paralelo resultante de alinear texto y datos, y finalmente los trabajos que se apoyan en patrones lingüísticos.

Los trabajos basados en lenguaje natural controlado son casi siempre aproximaciones simbólicas (es decir, basadas en reglas) y han sido sobre todo utilizados para la verbalización de ontologías debido a que establecen hipótesis fuertes entre la relación de los datos y las estructuras lingüísticas (por ejemplo, un axioma, una frase y una relación, un verbo). Los textos que estos trabajos producen son en general poco naturales:

Every cat is an animal. Every dog is an animal. Every horse is an animal. Every rabbit is an animal.

Los trabajos basados en una perspectiva estadística utilizan un corpus paralelo que alinea texto y datos para de ahí aprender un modelo que permita generar texto a partir de nuevos datos. (Konstas y Lapata 2012)19) aprenden una gramática libre de contexto probabilista que describe cómo (en qué orden u con qué palabras) verbalizar las entradas y los campos en una base de datos y un texto paralelo . (Angeli et al 2010)20) prefieren una perspectiva en donde el proceso de generación es descompuesto en una secuencia de decisiones locales organizadas de manera jerárquica y aprendidas con un modelo discriminante. (Wong y Moonery 2007)21) adaptan un sistema de traducción automática para aprender un modelo que permita traducir los datos en texto. Si estos trabajos son con frecuencia eficaces y robustos, la calidad de la frases producidas es muy aleatoria. Otro inconveniente mayor de estos trabajos radica en la necesidad de disponer de un corpus paralelo de tamaño consecuente. Para cada nuevo dominio abordado, es necesario crear un nuevo corpus.

En fechas recientes han sido propuestos trabajos híbridos simbólicos/estadísticos o puramente estadísticos que combinan patrones lingüísticos e información o modelos estadísticos para generar texto. (Cimiano et al. 2013)22) aprenden probabilidades de las estructuras sintácticas de un corpus específico al dominio en cuestión para posteriormente utilizar estas probabilidades para seleccionar, durante la fase de generación, el árbol sintáctico que maximiza un score que toma en cuenta la probabilidad normalizada de los árboles sintácticos, las categorías sintácticas, los sinónimos y los sentidos léxicos de las palabras etiquetadas en el árbol y los scores dados para cada alternativa del modelo de lenguaje. (Kondadadi et al. 2013)23) presentan una propuesta estadística en la cual los patrones de frases aprendidos automáticamente a partir de un corpus de textos son ordenados de acuerdo a su posición en el texto utilizando un modelo de Máquina de vectores de soporte (SVM). Finalmente, (Perez-Beltrachini et al. 2013)24) presentan un método híbrido para la verbalización de consultas sobre bases de conocimiento que combina un léxico construido automáticamente a partir de nombres de relaciones entre conceptos de la base de conocimiento, una gramática manualmente elaborada y un algoritmo de heurística en haz (beam search). Una ventaja mayor, común a estos trabajos, es que minimizan la necesidad de especificaciones manuales (construcción de corpus paralelos, léxicos, gramáticas) al tiempo que preservan la posibilidad de generar textos variados y de buena calidad (sin lenguaje controlado).

Para generar las descripciones de itinerarios producidas por Golem y FRED, nos proponemos aplicar un sistema híbrido simbólico/estadístico desarrollado en el laboratorio LORIA por el equipo SYNALP. Este trabajo se basa en el modelo Quelo-RTGen presentado por (Perez-Beltrachini et al. 2013) 25) y combina:

  • un generador de léxico que permite construir un léxico automáticamente a partir de nombres de redlaciones y de conceptos de la base de conocimientos considerada
  • una gramática de adjunción de árboles escrita manualmente
  • un hypertagger estadístico capaz de filtrar el espacio de búsqueda inicial y de segmentar los datos en subconjuntos verbalizables, cada uno por una frase
  • un algoritmo de generación

Este sistema ha sido desarrollado para la verbalización de búsquedas en bases de conocimientos; el desarrollo de una base de pruebas que contenga datos en RDF extraídos de la DBPedia se encuentra hoy en día en construcción. Ciertas modificaciones serían necesarias para adaptarlo a las descripciones de itinerarios producidas por el robot Golem y FRED:

  • Extensión de la gramática para tomar en cuenta las construcciones espaciales, temporales y discursivas producidas por Golem
  • Diseño, implementación y evaluación de un método de segmentación de las tripletas RDF producidas por FRED y que permitirán particionar los datos de entrada en subconjuntos de tripletas verbalizables por medio de una frase. Dos alternativas son posibles: reentrenar el hypertagger con un corpus paralelo de datos RDF producidos por FRED y su texto correspondiente, o especificar las reglas de segmentación a mano.
  • Adaptación del módulo léxico a los recursos RDF utilizados. Se buscará utilizar las etiquetas asociadas en DBPedia a los recursos en RDF.
  • Desarrollo de un módulo para el tratamiento de expresiones referenciales con la finalidad de producir cadenas referenciales apropiadas. Un módulo mínimo existe ya en el sistema actual. Sería entonces necesaria su adaptación para mejorar su desempeño con el tipo de cadenas referenciales producidas por Golem+FRED.

Con la finalidad de evaluar el sistema resultante, sería también necesario crear una base de pruebas que contenga pares (datos, texto) de forma y manera que los datos fueran ejemplos de las salidas producidas por Golem+FRED; el texto sería entonces una verbalización (producida por un ser humano) de estos datos. Esta base de pruebas permitiría evaluar los diferentes componentes del sistema de generación (segmentación en frases, lexicalización, generación de expresiones referenciales) así como de sus salidas (verbalización de los datos de entrada).

Desde un punto de vista estrictamente científico, el objetivo principal consiste en desarrollar un sistema de generación capaz de generar, con un mínimo de desarrollo manual y dentro del marco más general posible, descripciones de itinerarios de buena calidad. Por un lado, será un problema de aprendizaje a partir de los datos del web (texto y datos) de modelos que permitan lexicalizar los datos y segmentarlos en fragmentos de tamaño verbalizable (en una frase), así como de escoger las expresiones referenciales apropiadas (“Dr. Iván V. Meza Ruiz”, “Iván”, “Él”, “en su oficina”, etc.) y, por otro lado, de utilizar estos modelos para producir textos donde la interacción entre expresiones espaciales (en su oficina, en el IIMAS), expresiones referenciales, expresiones temporales (después) y maradores del discurso (y, por) sea óptima. d

Desde un punto de vista informático, el proyecto permitirá adaptar un sistema de generación actualmente utilizado para la verbalización de búsquedas en bases de conocimiento a la verbalización de datos RDF que representen descripciones de itinierarios.

Consideramos que el trabajo de ingeniería aquí descrito es consecuente, a pesar de apoyarse en un sistema ya existente. Dado que este proyecto está en vínculo directo con el proyecto WebNLG (Natural Language Generation for the Semantic Web) financiado por la ANR (Agence National de Recherche) y coordinado por Claire Gardent, proponemos por un lado una estrecha colaboración con Laura Pérez-Beltrachini, postoc en dicho proyecto y desarrolladora del sistema Quelo-RTGen. Por otro lado, nos proponemos cofinanciar la estancia de un joven investigador para que ésta dure un total de 6 meses. El objetivo consistirá entonces en reclutar a un estudiante de Master en investigación pour un periodo total de 6 meses.

Concepto Duración Monto
Seminario y reuniones de investigación de Aldo Gangemi (LIPN - Universidad de París 13) en el IIMAS 5 días €2000
Seminario y reuniones de investigación de Luis Pineda (IIMAS, UNAM) en la Universidad de París 13 5 dias €2000
Seminario y reuniones de investigación de Claire Gardent (LORIA/CNRS) en el IIMAS 5 dias €2000
Contratación de un joven investigador (nivel licenciatura o maestría) para el desarrollo de una interfaz FRED+GOLEM en el IIMAS 720 horas sobre 6 meses €3000
Contratación de un joven investigador en el CNRS/LORIA para la generación de relatos coherentes a partir de experiencias espaciales del robot Golem (CNRS/LORIA completará este presupuesto con €3000 más para contratar al joven investigador por 6 meses 360 horas sobre 3 meses €3000
Total €12000

Golfred Phase 1: First in vitro path

  • Inicio: Septiembre de 2015
  • Duración: 1 mes

1:Desarrollo de prototipos de trayectos textuales para el Golem

  • Duración: 0.5 meses
  • Responsables: IIMAS, LIPN

2:Búsqueda de las frases y las palabras clave encontradas por el Golem con el "web service" de FRED

  • Duración: 0.25m
  • Responsable: LIPN

3:Primer recorrido in vitro: Fred + palabras clave + generación de un relato rudimentario

  • Duración: 0.25m
  • Responsables: IIMAS, LIPN
  • Inicio: “Octubre de 2015”
  • Duración: 6 meses

1:Contratación del Joven Investigador 1 (JI1)

2:Desarrollo de un método de evaluación para trayectos "in vitro"

  • Duración: 1m
  • Responsable: JI1, IIMAS, LIPN

3:Desarrollo y optimización de un "fork" de FRED adaptado al Golem

  • Duración: 2m
  • Responsable: JI1, LIPN

4:Desarrollo de un método de desambigüación de palabras clave con FRED (quizás apoyándose en la percepción fenomenológica del Golem

  • Duración: 1m
  • Responsable: JI1, IIMAS, LIPN

5:Optimización experimental del trayecto "in vitro"

  • Duración: 1m
  • Responsable: JI1

6:Documentación y publicación de los resultados "in vitro"

  • Duración: 1m
  • Responsable: JI1
  • Inicio: Febrero del 2016
  • Duración: 6 meses

1: Contratación del Joven Investigador 1 por parte del CNRS/LORIA

2a: Método de alineamiento estadístico o de segmentación simbólica de las tripletas RDF producidas por FRED

  • Duración: 2.5m
  • Responsable: JI1, CNRS/LORIA

2b: Modificación de la gramática del sistema de generación del LORIA para tomar en cuenta las construcciones espaciales, temporales y discursivas de Golem

  • Duración: 2.5m
  • Responsable: JI2, CNRS/LORIA

3a: Adaptación del módulo lexico a los recursos RDF utilizados

  • Duración: 1.5m
  • Responsable: J12, CNRS/LORIA

3b: Desarrollo de un módulo para el tratamiento de expresiones referenciales con la finalidad de producir las cadenas referenciales adecuadas

  • Duración: 1.5m
  • Responsable: J12, CNRS/LORIA

4a: Optimización de los relatos generados

  • Duración: 2m
  • Responsable: J12, CNRS/LORIA

4b: Documentación y publicación de resultados

  • Duración: 2m
  • Responsable: J12, CNRS/LORIA
  • Inicio: Agosto del 2016
  • Duración: 2 meses

1: Implementación de un agente FRED embarcado en el robot Golem

  • Duración: 1m
  • Responsable: IIMAS, CNRS/LORIA, LIPN

2: Demostración pública en el museo científico "Universum"

  • Duración: 1m
  • Responsable: IIMAS, LIPN

En una primera etapa, el objetivo del proyecto consiste en reunir en un mismo equipo de trabajo la experiencia complementaria (robótica, representación y tratamiento del conocimiento, generación de lenguaje natural) que se necesita para producir textos que verbalicen las observaciones de un robot en un trayecto espacial, así como de utilizarla para adaptar y combinar los distintos sistemas (FRED. Golem, Quelo-RTGen) existentes. Dado el trabajo de ingeniería e investigación necesario para esta primera etapa, hemos decidido trabajar en un primer momento en idioma inglés, lengua para la cual los distintos módulos ya han sido probados. Sin embargo, nuestro objetivo en el mediano plazo será de utilizar los datos de DBPedia así como ontologías multilingües como Babelnet par extender el sistema propuesto a las lenguas francesa y española.

Luego entonces, nuestro objetivo consiste en difundir los resultados de este trabajo de investigación en congresos y revistas en francés, particularmente la revista de la Asociación para el Tratamiento Automático de la Lengua (ATALA). Dado que dos terceras partes de los participantes pertenecen a laboratorios franceses, el francés será la principal lengua de comunicación. Aunado a esto, la red de investigadores que el presente proyecto reúne aspira a convertirse en una pasarela científica para atraer estudiantes mexicanos hacia formaciones doctorales impartidas en las instituciones francesas participantes.

  1. Un artículo en francés en la conferencia TALN 2016 (Traitement Automatique des Langues)
  2. Un artículo en francés en la revista internacional Traitement Automatique des Langues.
  3. Un artículo en inglés en un workshop asociado a la conferencia AAAI (Association for the Advancement of Artificial Intelligence)
  4. Un artículo en inglés en una conferencia de procesamiento del lenguaje natural (ACL - Association for Computational Linguistics, NAACL - North American Chapter of the Association for Computational Linguistics, European Chapter of the EACL Association for Computational Linguistics, EMNLP - Empirical Method for Natural Language Processing ou INLG - International Conference on Natural Language Generation)

Las partes implicadas fijarán las modalidades de ejecución del proyecto y las reglas de devolución y explotación de los derechos por propiedad intelectual resultantes del presente proyecto en el marco de un acuerdo entre los participantes.

Desde el punto de vista de la robótica, este proyecto permitiría estudiar los vínculos entre la base de conocimientos de Golem26) en Prolog y las extensiones dinámicas posibles hacia la web semántica y el formato RDF. La idea que ante situaciones y tareas imprevistas el robot pueda apoyarse en la web semántica podría dar lugar a nuevos métodos para estructurar los comportamientos dinámicos en los modelos cognitivos propios de la robótica de servicio. Además el proyecto permitiría también preparar el terreno para una implementación multilingüe a mediano plazo, en particular de la lectura de textos ambientales y la producción de relatos de experiencias espaciales en lengua francesa.

El multilingüismo enriquecería igualmente al sistema FRED27), herramienta utilizada en la extracción de conocimientos para la web semántica. En la actualidad FRED ha sido probado sólo en lengua inglesa. Si bien el objetivo de este proyecto es el tratamiento y generación de textos en inglés, el financiamiento de la AUF nos permitiría reforzar la perspectiva de una producción en español y francés en el mediano plazo. Esto aunado a que el hecho de embarcar FRED en un dispositivo sin conectividad a internet podría dar lugar a una nueva familia de aplicaciones embarcadas que se apoyen en la web semántica.

Desde una perspectiva de generación de texto, este proyecto permitiría a su vez la implementación de una arquitectura de generación de textos a partir de datos en RDF. Como bien apuntan (Rector et.al. 2004) 28), los estándares establecidos por la comunidad de la web semántica (RDF, OWL) son de muy difícil comprensión y manipulación para los seres humanos. Con el desarrollo de la web semántica y el auge de los datos vinculados (linked data), la proliferación de bases de conocimiento y, más generalmente, de datos masivos hay una nueva necesidad de desarrollar tecnologías que permitan a los seres humanos un acceso simple y natural a los datos tratados y producidos por la maquinaria de la web de datos. Los sistemas aquí propuestos intentan transformar datos en texto y representan un medio natural, intuitivo y coherente de transormación de datos. Más generalmente, estos sistemas facilitan el acceso para usuarios no expertos a datos vinculados o bases de conocimiento y a su vez permiten guiar al usuario en la formulación de consultas hacia estas bases. En realidad, la generación de lenguaje natural es percibida cada vez más como una ventaja competitiva (game changing) por la cual las nuevas compañías emergentes buscan reformular el acceso masivo a la abuntantísima cantidad de información propia del mundo contemporáneo.


1) Aurélie Sobocinski. Quel avenir pour la robotique de service ? CNRS Le journal, 28.07.2014.
2) Luis A. Pineda, Arturo Rodríguez, Gibran Fuentes, Caleb Rascon and Ivan V. Meza. Concept and Functional Structure of a Service Robot. International Journal of Advanced Robot Systems, 2015, 12:6.
3), 5) Bernard Pottier. Sémantique générale. Presses universitaires de France, Paris, 1992.
4) Kai Zhou, Michael Zillich, Hendrik Zender and Markus Vincze. Web Mining Driven Object Locality Knowledge Acquisition for Efficient Robot Behavior. 2012 IEEE/RSJ International Conference on Intelligent Robots and Systems, October 7-12, 2012. Vilamoura, Algarve, Portugal.
6), 16), 27) Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero. Frame-based detection of opinion holders and topics: a model and a tool. IEEE Computational Intelligence, 9(1), 2014
7), 24), 25) Laura Perez-Beltrachini, Claire Gardent and Enrico Franconi. Incremental Query Generation. EACL 2014, Gothenburg, Sweden, April 2014.
8) service.robot
9) Sven Wachsmuth, Dirk Holz, Maja Rudinac, Javier Ruiz-del-Solar. RoboCup@Home - Benchmarking Domestic Service Robots. Proceedings of the Twenty-Ninth AAAI Conference on Artificial Intelligence, January 25-30, 2015, Austin, Texas.
10) Luis A. Pindea, Grupo Golem: RoboCup@Home 2013. Proceedings of Robocup 2013. vol , pp . 2013.
11) Edith Moya, E., Hernández, M., Pineda, L. and Meza, I.: Speech Recognition with Limited Resources for Children and Adult Speakers. Tenth Mexican International Conference on Artificial Intelligence - Special Session - Revised Papers. vol 2276, pp 57-65. 2011.
12) Ivan Meza, Salinas, L., Pavón, E., Avilés, H. and Pineda, L.: A Multimodal Dialogue System for Playing the Game “Guess the card”. Procesamiento de Lenguaje Natural. . vol 44, pp 131-138. 2010.
13) german.open
14) Caleb Rascon, Ivan Meza, Gibran Fuentes, Lisset Salinas and Luis A. Pineda. Integration of the Multi-DOA Estimation Functionality to Human-Robot Interaction. Int J Adv Robot Syst, 2015, 12:8
15) Oren Etzioni , Michele Banko , Michael J. Cafarella, Machine reading, proceedings of the 21st national conference on Artificial intelligence, p.1517-1519, July 16-20, 2006, Boston, Massachusetts
17) V. Presutti, F. Draicchio and A. Gangemi, A. Knowledge extraction based on discourse representation theory and linguistic frames. EKAW2012 Conference, LNCS, Springer, 2012.
18) by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak, Linking Open Data cloud diagram 2014, http://lod-cloud.net/
19) Konstas, Ioannis, and Mirella Lapata. “Unsupervised concept-to-text generation with hypergraphs.” Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 3 Jun. 2012: 752-761.
20) Angeli, Gabor, Percy Liang, and Dan Klein. “A simple domain-independent probabilistic approach to generation.” Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing 9 Oct. 2010: 502-512.
21) Wong, Yuk Wah, and Raymond J Mooney. “Generation by Inverting a Semantic Parser that Uses Statistical Machine Translation.” HLT-NAACL 2007: 172-179.
22) Cimiano, Philipp et al. “Exploiting ontology lexica for generating natural language texts from RDF data.” (2013).
23) Kondadadi, Ravi, Blake Howald, and Frank Schilder. “A Statistical NLG Framework for Aggregated Planning and Realization.” ACL (1) 6 Aug. 2013: 1406-1415.
26) Luis A. Pineda, Lisset Salinas, Ivan V. Meza, Caleb Rascon and Gibran Fuentes. SitLog: A Programming Language for Service Robot Tasks. Int J Adv Robot Syst, 2013
28) A. Rector, N. Drummond, M. Horridge, J. Rogers, H. Knublauch, R. Stevens, H. Wang, and C. Wroe. Owl pizzas: Practical experience of teaching owl-dl: Common errors & common patterns. Engineering Knowledge in the Age of the Semantic Web, pages 63–81, 2004.
  • Dernière modification: il y a 4 ans