GANSO: Generación automática de relatos literarios cortos por medio de sincronización ontológica de una red neuronal recurrente y un generador de texto
Resumen
El objetivo del proyecto consiste en desarrollar un método que permita la generación automática de cuentos cortos a partir de una palabra del diccionario elegida al azar. La intención es que el resultado sea evaluado por expertos literarios contra cuentos cortos escritos por estudiantes universitarios en creación literaria. El método que proponemos está basado, por un lado, en la generación por reescritura de fragmentos clásicos de la literatura con la ayuda de una red neuronal recurrente (RNN)[(Ryan Kiros. [[https://github.com/ryankiros/neural-storyteller|//Neural Storyteller//]] (2015))][(Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler. //Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books.// arXiv preprint arXiv:1506.06724 (2015).)]. Por otro lado, se intentaría generar de una estructura narratológica y estilística única para cada relato por medio de ontologías narrativas 1) y generacińo de lenguaje natural por medio de gramáticas de árboles adjuntos y expresiones lógicas2). La intuición científica de fondo es que la generación por RNN a partir de un corpus de clásicos de la literatura podría proporcionar los elementos léxicos y contextuales de base para permitir, en una etapa posterior, completar la generación con una estructura narratológica determinada por una ontología y un estilo caracterizado por expresiones lógicas asociadas a gramáticas de árboles adjuntos.
La tarea que inspira este proyecto forma parte de los desafíos de Turing en creación artística3); en su edición 2016, el desafío DigitLit (generación automática de cuentos cortos) fue declarado desierto puesto que ningún evaluador estimó que los sistemas participantes produjeran textos de una calidad literaria comparable a aquellos escritos por estudiantes universitarios de escritura creativa, lo cual habla de la dificultad de la tarea. Desde nuestro punto de vista, las preguntas científicas que emanan de la tarea son numerosas, tanto en inteligencia artificial como en lingüística computacional y literatura. Los métodos basados en aprendizaje profundo (RNN) producen texto fluido, de buena calidad lingüística pero poco legible debido a su falta de coherencia lógica y narrativa. Por el contrario, los métodos simbólicos podrían mejorar la coherencia lógica, pero producen texto carente de fluidez y pobre de estilo. ¿Qué tan posible sería conciliar metodológicamente ambas perspectivas? Y una segunda pregunta, ésta vez concerniente a la evaluación de la calidad literaria de los relatos producidos con este método: ¿los criterios estéticos y hermenéuticos comunes en el estudio de la recepción de textos literarios aplican también en textos generados por inteligencia artificial? Y una última: ¿qué tan útiles podrían ser los métodos didácticos utilizados en la enseñanza de la escritura creativa para le generación automática de relatos?
Abstract
Automatically generating short stories is an interdisciplinary challenge for artificial intelligence, computational linguistics and literature. In the GANSO project, we aim to develop an approach for generating short stories using and integrating methods from these three fields. Our goal is to combine deep learning models trained on a literary text with ontologies describing the narratological structures of short stories and natural language generation methods capable of converting ontological knowledge into sentences. While deep learning produce fluent texts which successfully mimick the style of the text they are trained on, NLG techniques permit producing text that verbalise a given meaning. Using ontologies to mediate between the two methods, we will investigate how to combine deep learning and NLG approaches so as to produce short stories that are both fluent and meaningful. The project builds on previous collaborations and gathers experts on deep learning, NLG and literature.
English title
Automatic generation of short stories with ontological synchronization of a recurrent neural network and tree-adjoining grammars
Convocatoria
Área del conocimiento
Desafío 10 - « des autres savoirs »
Keywords
- natural language processing, recurrent neural networks, tree-adjoining grammars
- neural short story teller, natural language generation, Turing test of creative arts
Clasificación por disciplina
- Artificial intelligence, intelligent systems, multi-agent systems
- Theoretical linguistics, computational linguistics
- Theory and history of literature, comparative literature
Duración
48 meses
Participantes
LIPN (Universidad de Paris 13)
- Jorge Garcia Flores (coordinador francés)
- Thierry Charnois
- Haifa Zargayouna
- Nadi Tomeh
- Joseph Le Roux
LORIA (INRIA/CNRS)
- Claire Gardent
- Émilie Colin
- Samuel Cruz Lara
IIMAS (UNAM)
- Iván Vladimir Meza Ruiz (coordinador mexicano)
- Gibrán Fuentes Pineda
Universidad de Paris III (Sorbonne-Nouvelle)
- Florence Olivier
Universidad de Orléans
- Marcos Eymar
Universidad de Houston
- Cristina Rivera Garza
Facultad de Filosofía y Letras (UNAM)
- Roberto Cruz Arzábal
Duración
4 años
Recursos
ANR (Francia)
Monto: 330k€
- 1 post-doc en Paris 3 - Orléans (2 años) 92k€
- 1 doctorado en LORIA (3 años): 110k€
- 1 doctorado en Paris-13 (3 años): 110k€
- 2 viajes a conferencias para cada uno de los estudiantes (sobre 4 años): 15k€
- 1 misión anual Francia-México para el coordinador científico (4 años): 4k€
Conacyt (México)
Monto: 130k€
- 1 post-doc IIMAS (2 años): 552k$ (27k€)*
- 4 becas de licenciatura (1 año): 214k$ (11k€)
- 1 ingeniero de sistemas (6 meses): 144k$ (7k€)
- 9 misiones hacia México para la reunión inicial del proyecto y 4 misiones hacia Francia para la reunión a la mitad del proyecto: 650k$ (33k€)
- 1 postdoc IIMAS/Houston (2 años): 552k$ (27k€)
- 2 misiones de tres meses en Houston para el post-doc IIMAS/Houston: 23k€