GANSO: Generación automática de relatos literarios cortos por medio de sincronización ontológica de una red neuronal recurrente y un generador de texto

Traduction en français ici

El objetivo del proyecto consiste en desarrollar un método que permita la generación automática de cuentos cortos a partir de una palabra del diccionario elegida al azar. La intención es que el resultado sea evaluado por expertos literarios contra cuentos cortos escritos por estudiantes universitarios en creación literaria. El método que proponemos está basado, por un lado, en la generación por reescritura de fragmentos clásicos de la literatura con la ayuda de una red neuronal recurrente (RNN)[(Ryan Kiros. [[https://github.com/ryankiros/neural-storyteller|//Neural Storyteller//]] (2015))][(Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler. //Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books.// arXiv preprint arXiv:1506.06724 (2015).)]. Por otro lado, se intentaría generar de una estructura narratológica y estilística única para cada relato por medio de ontologías narrativas ¹⁾ y generacińo de lenguaje natural por medio de gramáticas de árboles adjuntos y expresiones lógicas²⁾. La intuición científica de fondo es que la generación por RNN a partir de un corpus de clásicos de la literatura podría proporcionar los elementos léxicos y contextuales de base para permitir, en una etapa posterior, completar la generación con una estructura narratológica determinada por una ontología y un estilo caracterizado por expresiones lógicas asociadas a gramáticas de árboles adjuntos.

La tarea que inspira este proyecto forma parte de los desafíos de Turing en creación artística³⁾; en su edición 2016, el desafío DigitLit (generación automática de cuentos cortos) fue declarado desierto puesto que ningún evaluador estimó que los sistemas participantes produjeran textos de una calidad literaria comparable a aquellos escritos por estudiantes universitarios de escritura creativa, lo cual habla de la dificultad de la tarea. Desde nuestro punto de vista, las preguntas científicas que emanan de la tarea son numerosas, tanto en inteligencia artificial como en lingüística computacional y literatura. Los métodos basados en aprendizaje profundo (RNN) producen texto fluido, de buena calidad lingüística pero poco legible debido a su falta de coherencia lógica y narrativa. Por el contrario, los métodos simbólicos podrían mejorar la coherencia lógica, pero producen texto carente de fluidez y pobre de estilo. ¿Qué tan posible sería conciliar metodológicamente ambas perspectivas? Y una segunda pregunta, ésta vez concerniente a la evaluación de la calidad literaria de los relatos producidos con este método: ¿los criterios estéticos y hermenéuticos comunes en el estudio de la recepción de textos literarios aplican también en textos generados por inteligencia artificial? Y una última: ¿qué tan útiles podrían ser los métodos didácticos utilizados en la enseñanza de la escritura creativa para le generación automática de relatos?

Abstract

Automatically generating short stories is an interdisciplinary challenge for artificial intelligence, computational linguistics and literature. In the GANSO project, we aim to develop an approach for generating short stories using and integrating methods from these three fields. Our goal is to combine deep learning models trained on a literary text with ontologies describing the narratological structures of short stories and natural language generation methods capable of converting ontological knowledge into sentences. While deep learning produce fluent texts which successfully mimick the style of the text they are trained on, NLG techniques permit producing text that verbalise a given meaning. Using ontologies to mediate between the two methods, we will investigate how to combine deep learning and NLG approaches so as to produce short stories that are both fluent and meaningful. The project builds on previous collaborations and gathers experts on deep learning, NLG and literature.

Automatic generation of short stories with ontological synchronization of a recurrent neural network and tree-adjoining grammars

ANR - Conacyt 2017

Desafío 10 - « des autres savoirs »

natural language processing, recurrent neural networks, tree-adjoining grammars
neural short story teller, natural language generation, Turing test of creative arts

Artificial intelligence, intelligent systems, multi-agent systems
Theoretical linguistics, computational linguistics
Theory and history of literature, comparative literature

48 meses

Jorge Garcia Flores (coordinador francés)
Thierry Charnois
Haifa Zargayouna
Nadi Tomeh
Joseph Le Roux

Claire Gardent
Émilie Colin
Samuel Cruz Lara

Iván Vladimir Meza Ruiz (coordinador mexicano)
Gibrán Fuentes Pineda

Florence Olivier

Marcos Eymar

Cristina Rivera Garza

Roberto Cruz Arzábal

4 años

Monto: 330k€

1 post-doc en Paris 3 - Orléans (2 años) 92k€
1 doctorado en LORIA (3 años): 110k€
1 doctorado en Paris-13 (3 años): 110k€
2 viajes a conferencias para cada uno de los estudiantes (sobre 4 años): 15k€
1 misión anual Francia-México para el coordinador científico (4 años): 4k€

Monto: 130k€

1 post-doc IIMAS (2 años): 552k$ (27k€)*
4 becas de licenciatura (1 año): 214k$ (11k€)
1 ingeniero de sistemas (6 meses): 144k$ (7k€)
9 misiones hacia México para la reunión inicial del proyecto y 4 misiones hacia Francia para la reunión a la mitad del proyecto: 650k$ (33k€)
1 postdoc IIMAS/Houston (2 años): 552k$ (27k€)
2 misiones de tres meses en Houston para el post-doc IIMAS/Houston: 23k€

¹⁾ Henrik Schärfe. Narrative Ontologies. KEST2004. ed. / C.G. Cao; Y.F. Sui. Tsinghua : University Press, 2004. p. 19-26.

²⁾ C. Gardent and L. Perez-Beltrachini A Statistical, Grammar-Based Approach to Micro-Planning In Computational Linguistics, To Appear.

³⁾ //Turing Tests in the Creative Arts.// Neukom Institute et Darmouth College.

GANSO: Generación automática de relatos literarios cortos por medio de sincronización ontológica de una red neuronal recurrente y un generador de texto

Resumen

Abstract

English title

Convocatoria

Área del conocimiento

Keywords

Clasificación por disciplina

Duración

Participantes

LIPN (Universidad de Paris 13)

LORIA (INRIA/CNRS)

IIMAS (UNAM)

Universidad de Paris III (Sorbonne-Nouvelle)

Universidad de Orléans

Universidad de Houston

Facultad de Filosofía y Letras (UNAM)

Duración

Recursos

ANR (Francia)

Conacyt (México)

Referencias

Wiki LIPN