GANSO: Génération Automatique de Nouvelles littéraires courtes par Synchronisation Ontologique d'un réseau de neurones récurrent et d'un générateur de texte : Différence entre versions

De wikiRcln
Aller à : navigation, rechercher
(Facultad de Filosofía y Letras (UNAM))
(Consortium)
Ligne 54 : Ligne 54 :
 
* Cristina Rivera Garza
 
* Cristina Rivera Garza
  
===Facultad de Filosofía y Letras===
+
===Facultad de Filosofía y Letras (UNAM)===
 
* Roberto Cruz Arzábal
 
* Roberto Cruz Arzábal
  

Version du 26 octobre 2016 à 22:36

Traducción al español acá

English title

Automatic generation of short stories with ontological synchronization of a recurrent neural network and a natural language generation system

Abstract

Automatically generating short stories is an interdisciplinary challenge for artificial intelligence, computational linguistics and literature. In the GANSO project, we aim to develop an approach for generating short stories using and integrating methods from these three fields. Our goal is to combine deep learning models trained on a literary text with ontologies describing the narratological structures of short stories and natural language generation methods capable of converting ontological knowledge into sentences. While deep learning produce fluent texts which successfully mimick the style of the text they are trained on, NLG techniques permit producing text that verbalise a given meaning. Using ontologies to mediate between the two methods, we will investigate how to combine deep learning and NLG approaches so as to produce short stories that are both fluent and meaningful. The project builds on previous collaborations and gathers experts on deep learning, NLG and literature.

Résumé

La génération automatique de récits est un défi inter-disciplinaire pour l'intelligence artificielle, la linguistique informatique et la littérature. Le projet GANSO vise à developper une approche pour la génération de récits courts utilisant des techniques de ces trois domaines, notamment des modèles d'apprentissage profonds appris sur des textes littéraires, des ontologies décrivant des structures narratologiques et des méthodes de génération automatique de textes. Si l'apprentissage profond permet de produire des textes de bonne qualité qui imitent le style des textes sur lesquels ils sont entraînés, la génération permet de produire des textes qui verbalisent un sens donné. Nous explorerons comment combiner ontologies, apprentissage profond et génération pour produire des récits naturels et sémantiquement cohérents. Le projet prolonge des collaborations existantes et rassemble des experts en apprentissage profond, en génération et en littérature.

Appel

ANR - Projet de recherche collaborative - International (PRCI) 2017

Défi

Défi 10 - Défi « des autres savoirs »

Keywords

  1. natural language processing, recurrent neural networks, tree-adjoining grammars
  2. neural short story teller, natural language generation, Turing test of creative arts

Mots-clés disciplinaires

  1. Artificial intelligence, intelligent systems, multi-agent systems
  2. Theoretical linguistics, computational linguistics
  3. Theory and history of literature, comparative literature

Durée

48 mois

Consortium

LIPN (Université Paris 13)

  • Jorge Garcia Flores (porteur France)
  • Haifa Zargayouna
  • Thierry Charnois
  • Joseph Le Roux
  • Nadi Tomeh

LORIA (INRIA/CNRS)

  • Claire Gardent
  • Émilie Colin
  • Samuel Cruz Lara

IIMAS (UNAM, Mexique)

  • Iván Vladimir Meza Ruiz (porteur Mexique)
  • Gibrán Fuentes Pineda

Université Paris III (Sorbonne-Nouvelle)

  • Florence Olivier

Université d'Orléans

  • Marcos Eymar

Université de Houston

  • Cristina Rivera Garza

Facultad de Filosofía y Letras (UNAM)

  • Roberto Cruz Arzábal

Moyens demandés

ANR (France)

Montant d'aide demandé: 330k€

  • 1 post-doc à Paris 3 - Orléans (2 ans): 92k€
  • 1 thèse au LORIA (3 ans): 110k€
  • 1 thèse à Paris-13 (3 ans): 110k€
  • 2 conférences pour chacun des trois étudiants (sur 3 ans): 15k€
  • 1 mission annuelle France-Mexique pour le coordinateur scientifique (3 ans): 3k€

Conacyt (Mexique)

Montant d'aide demandé: 130k€

  • 1 post-doc IIMAS (2 ans): 552k$ (27k€)
  • 4 bourses licence (1 an): 214k$ (11k€)
  • 1 ingénieur d'études (6 mois): 144k$ (7k€)
  • 9 missions vers le Mexique pour la réunion initiale du projet et 4 missions vers la France pour la réunion à mi-terme: 650k$ (33k€)
  • 1 post-doc UNAM-Houston (2 ans): 552k$ (27k€)
  • 2 séjours de trois mois vers Houston pour le post-doc: 23k€

Idées

  1. Réécrire le neural-storyteller en changeant l'image d'entrée par un mot
  2. Ré-entraîner le neural-storyteller en vectorisant des phrases à la place des mots
  3. Faire du bootstraping digressif à partir d'une expression primitive en flat-semantics de Géni (Un jour, un homme se reveille et se rend compte qu'il a été transformé en escarabé).
  4. Donner à FRED un ensemble de candidats à événements pour qu'il fasse l'analyse des entités et crée les répresentations sémantiques (Claire(
  5. Revisiter le travail de Pablo Gervás
  6. Vectoriser les phrases
  7. Par rapport au resumé
    • Finir sur une question ce n'est pas une bonne idée
    • Dans le résumé c'est important de dire qu'on a déjà une collaboration en place (c'est le plus important)
    • Dire que c'est très interdisciplinaire (écrivains, spécialistes, génération, deep learning)

Contexte

L'objectif du projet consiste à développer une méthode qui permette la génération automatique de nouvelles littéraires courtes (short stories) à partir d'un mot du dictionnaire choisi au hasard. L'intention est que le résultat soit évalué par des experts littéraires contre des nouvelles produites par des étudiants universitaires en création littéraire. La méthode que nous proposons est basée, d'un côté, sur la génération par réécriture de fragments extrait des classiques de la littérature à l'aide d'un réseau de neurones récurrent (RNN)[1][2] pendant que, d'un autre côté, on chercherait à produire une structure narratologique et stylistique unique pour chaque récit à l'aide d'ontologies narratives[3] et de génération de langage naturel par des grammaires d'arbre adjoints à partir d'expressions logiques[4]. Notre intuition scientifique est que la génération par réseaux de neurones à partir d'un corpus littéraire classique pourrait fournir les éléments lexicaux et contextuels nécessaires pour permettre, dans un deuxième temps, une génération à partir d'une structure narratologique déterminée par une ontologie et d'un style caractérisé dans des expressions logiques associées à des grammaires d'arbre adjoints.

La tâche qui a inspiré notre projet forme partie des défis de Turing en création artistique[5]; dans son édition 2016 le premier prix du défi DigitLit (génération automatique de nouvelles courtes) n'a pas été décerné, puisque les évaluateurs ont jugé qu'aucun des systèmes participants ne produisait pas des récits d'une qualité littéraire comparable à celle des textes produits par des étudiants universitaires en création littéraire, ce qui est un symptôme de la difficulté de la tâche. De notre point de vue, les questions scientifiques qui découlent de la résolution d'une telle tâche sont nombreuses, autant en intelligence artificielle, qu'en linguistique computationnelle et en littérature. Les approches basées sur l'apprentissage profond (RNN) produisent des textes d'une haute qualité linguistique quoique peu lisibles du fait de leur manque de cohérence logique et narrative. Par contre, les approches symboliques pourraient améliorer la cohérence logique, mais le texte produit manque de fluidité et est stylistiquement pauvre. Est-il possible de concilier méthodologiquement ces deux approches? Dans un second temps se pose la question de la qualité littéraire des textes produits de la sorte: les critères esthétiques et herméneutiques qui président à l'étude de la réception des textes littéraires sont-ils pertinents dans le cas de nouvelles produites par une intelligence artificielle? En fin, les outils didactiques employés dans les formations à l'écriture créative pourraient-ils être utiles à la génération automatique des nouvelles?

Programme scientifique

Étape 1: État de l'art en génération de récits littéraires

  • Début:
  • Durée:
  • Responsables:

Étape 2: Neural-storyteller qui prend un mot en entrée (à la place d'une image)

  • Début:
  • Durée:
  • Responsables:

Étape 3: Entraînement d'un RNN à partir d'un corpus de récits classiques

  • Début:
  • Durée:
  • Responsables:

Étape 4: Évaluation par des spécialiste en littérature et optimisation de la méthode

  • Début:
  • Durée:
  • Responsables:

Références

  1. Ryan Kiros. Neural Storyteller (2015)
  2. Yukun Zhu, Ryan Kiros, Richard Zemel, Ruslan Salakhutdinov, Raquel Urtasun, Antonio Torralba, Sanja Fidler. Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books. arXiv preprint arXiv:1506.06724 (2015).
  3. Henrik Schärfe. Narrative Ontologies. KEST2004. ed. / C.G. Cao; Y.F. Sui. Tsinghua : University Press, 2004. p. 19-26.
  4. C. Gardent and L. Perez-Beltrachini A Statistical, Grammar-Based Approach to Micro-Planning In Computational Linguistics, To Appear.
  5. Turing Tests in the Creative Arts. Neukom Institute et Darmouth College.