GANSO: Génération Automatique de Nouvelles littéraires courtes par Synchronisation Ontologique d'un réseau de neurones récurrent et d'un générateur de texte

Traducción al español acá

Automatic generation of short stories with ontological synchronization of a recurrent neural network and a natural language generation system

Abstract

Automatically generating short stories is an interdisciplinary challenge for artificial intelligence, computational linguistics and literature. In the GANSO project, we aim to develop an approach for generating short stories using and integrating methods from these three fields. Our goal is to combine deep learning models trained on a literary text with ontologies describing the narratological structures of short stories and natural language generation methods capable of converting ontological knowledge into sentences. While deep learning produce fluent texts which successfully mimick the style of the text they are trained on, NLG techniques permit producing text that verbalise a given meaning. Using ontologies to mediate between the two methods, we will investigate how to combine deep learning and NLG approaches so as to produce short stories that are both fluent and meaningful. The project builds on previous collaborations and gathers experts on deep learning, NLG and literature.

La génération automatique de récits est un défi inter-disciplinaire pour l'intelligence artificielle, la linguistique informatique et la littérature. Le projet GANSO vise à developper une approche pour la génération de récits courts utilisant des techniques de ces trois domaines, notamment des modèles d'apprentissage profonds appris sur des textes littéraires, des ontologies décrivant des structures narratologiques et des méthodes de génération automatique de textes. Si l'apprentissage profond permet de produire des textes de bonne qualité qui imitent le style des textes sur lesquels ils sont entraînés, la génération permet de produire des textes qui verbalisent un sens donné. Nous explorerons comment combiner ontologies, apprentissage profond et génération pour produire des récits naturels et sémantiquement cohérents. Le projet prolonge des collaborations existantes et rassemble des experts en apprentissage profond, en génération et en littérature.

ANR - Projet de recherche collaborative - International (PRCI) 2017

Défi 10 - Défi « des autres savoirs »

natural language processing, recurrent neural networks, tree-adjoining grammars
neural short story teller, natural language generation, Turing test of creative arts

Artificial intelligence, intelligent systems, multi-agent systems
Theoretical linguistics, computational linguistics
Theory and history of literature, comparative literature

48 mois

Jorge Garcia Flores (porteur France)
Haifa Zargayouna
Thierry Charnois
Joseph Le Roux
Nadi Tomeh

Claire Gardent
Émilie Colin
Samuel Cruz Lara

Iván Vladimir Meza Ruiz (porteur Mexique)
Gibrán Fuentes Pineda

Florence Olivier

Marcos Eymar

Cristina Rivera Garza

Roberto Cruz Arzábal

Montant d'aide demandé: 330k€

1 post-doc à Paris 3 - Orléans (2 ans): 92k€
1 thèse au LORIA (3 ans): 110k€
1 thèse à Paris-13 (3 ans): 110k€
2 conférences pour chacun des trois étudiants (sur 3 ans): 15k€
1 mission annuelle France-Mexique pour le coordinateur scientifique (3 ans): 3k€

Montant d'aide demandé: 130k€

1 post-doc IIMAS (2 ans): 552k$ (27k€)
4 bourses licence (1 an): 214k$ (11k€)
1 ingénieur d'études (6 mois): 144k$ (7k€)
9 missions vers le Mexique pour la réunion initiale du projet et 4 missions vers la France pour la réunion à mi-terme: 650k$ (33k€)
1 post-doc UNAM-Houston (2 ans): 552k$ (27k€)
2 séjours de trois mois vers Houston pour le post-doc: 23k€

Réécrire le neural-storyteller en changeant l'image d'entrée par un mot
Ré-entraîner le neural-storyteller en vectorisant des phrases à la place des mots
Faire du bootstraping digressif à partir d'une expression primitive en flat-semantics de Géni (Un jour, un homme se reveille et se rend compte qu'il a été transformé en escarabé).
Donner à FRED un ensemble de candidats à événements pour qu'il fasse l'analyse des entités et crée les répresentations sémantiques (Claire(
Revisiter le travail de Pablo Gervás
Vectoriser les phrases
Par rapport au resumé
- Finir sur une question ce n'est pas une bonne idée
- Dans le résumé c'est important de dire qu'on a déjà une collaboration en place (c'est le plus important)
- Dire que c'est très interdisciplinaire (écrivains, spécialistes, génération, deep learning)

Contexte

L'objectif du projet consiste à développer une méthode qui permette la génération automatique de nouvelles littéraires courtes (short stories) à partir d'un mot du dictionnaire choisi au hasard. L'intention est que le résultat soit évalué par des experts littéraires contre des nouvelles produites par des étudiants universitaires en création littéraire. La méthode que nous proposons est basée, d'un côté, sur la génération par réécriture de fragments extrait des classiques de la littérature à l'aide d'un réseau de neurones récurrent (RNN)[(Ryan Kiros. [[https://github.com/ryankiros/neural-storyteller|//Neural Storyteller//]] (2015))][(Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler. //Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books.// arXiv preprint arXiv:1506.06724 (2015).)] pendant que, d'un autre côté, on chercherait à produire une structure narratologique et stylistique unique pour chaque récit à l'aide d'ontologies narratives¹⁾ et de génération de langage naturel par des grammaires d'arbre adjoints à partir d'expressions logiques²⁾. Notre intuition scientifique est que la génération par réseaux de neurones à partir d'un corpus littéraire classique pourrait fournir les éléments lexicaux et contextuels nécessaires pour permettre, dans un deuxième temps, une génération à partir d'une structure narratologique déterminée par une ontologie et d'un style caractérisé dans des expressions logiques associées à des grammaires d'arbre adjoints.

La tâche qui a inspiré notre projet forme partie des défis de Turing en création artistique³⁾; dans son édition 2016 le premier prix du défi DigitLit (génération automatique de nouvelles courtes) n'a pas été décerné, puisque les évaluateurs ont jugé qu'aucun des systèmes participants ne produisait pas des récits d'une qualité littéraire comparable à celle des textes produits par des étudiants universitaires en création littéraire, ce qui est un symptôme de la difficulté de la tâche. De notre point de vue, les questions scientifiques qui découlent de la résolution d'une telle tâche sont nombreuses, autant en intelligence artificielle, qu'en linguistique computationnelle et en littérature. Les approches basées sur l'apprentissage profond (RNN) produisent des textes d'une haute qualité linguistique quoique peu lisibles du fait de leur manque de cohérence logique et narrative. Par contre, les approches symboliques pourraient améliorer la cohérence logique, mais le texte produit manque de fluidité et est stylistiquement pauvre. Est-il possible de concilier méthodologiquement ces deux approches? Dans un second temps se pose la question de la qualité littéraire des textes produits de la sorte: les critères esthétiques et herméneutiques qui président à l'étude de la réception des textes littéraires sont-ils pertinents dans le cas de nouvelles produites par une intelligence artificielle? En fin, les outils didactiques employés dans les formations à l'écriture créative pourraient-ils être utiles à la génération automatique des nouvelles?

Début:
Durée:
Responsables:

Étape 2: "Neural-storyteller" qui prend un mot en entrée (à la place d'une image)

Début:
Durée:
Responsables:

Début:
Durée:
Responsables:

Début:
Durée:
Responsables:

¹⁾ Henrik Schärfe. Narrative Ontologies. KEST2004. ed. / C.G. Cao; Y.F. Sui. Tsinghua : University Press, 2004. p. 19-26.

²⁾ C. Gardent and L. Perez-Beltrachini A Statistical, Grammar-Based Approach to Micro-Planning In Computational Linguistics, To Appear.

³⁾ //Turing Tests in the Creative Arts.// Neukom Institute et Darmouth College.

GANSO: Génération Automatique de Nouvelles littéraires courtes par Synchronisation Ontologique d'un réseau de neurones récurrent et d'un générateur de texte

English title

Abstract

Résumé

Appel

Défi

Keywords

Mots-clés disciplinaires

Durée

Consortium

LIPN (Université Paris 13)

LORIA (INRIA/CNRS)

IIMAS (UNAM)

Université Paris III (Sorbonne-Nouvelle)

Université d'Orléans

Université de Houston

Facultad de Filosofía y Letras (UNAM)

Moyens demandés

ANR (France)

Conacyt (Mexique)

Idées

Contexte

Programme scientifique

Étape 1: État de l'art en génération de récits littéraires

Étape 2: "Neural-storyteller" qui prend un mot en entrée (à la place d'une image)

Étape 3: Entraînement d'un RNN à partir d'un corpus de récits classiques

Étape 4: Évaluation par des spécialiste en littérature et optimisation de la méthode

Références

Wiki LIPN