//Projet financée par l'Agence Universitaire de la Francophonie (inciative PIRAT 2015). [[Golfred: Generación de relatos de experiencias espaciales en robots de servicio por extracción de conocimiento a partir de textos|Version en espagnol ici]]//, résumé [[Machine reading for narrative generation of spatial experiences in service robots|en anglais là]]
+
//Projet financée par l'Agence Universitaire de la Francophonie (inciative PIRAT 2015). [[equipes:rcln:ancien_wiki:projets:golfred:es|Version en espagnol ici]]//, résumé [[equipes:rcln:ancien_wiki:projets:golfred:machine_reading_service_robots|en anglais là]]
===== Résumé du projet =====
===== Résumé du projet =====
Ligne 83:
Ligne 83:
Les approches statistiques utilisent un corpus parallèle alignant texte et données pour apprendre un modèle permettant de générer du texte à partir de nouvelles données.
Les approches statistiques utilisent un corpus parallèle alignant texte et données pour apprendre un modèle permettant de générer du texte à partir de nouvelles données.
-
(Konstas et Lapata 2012)<ref>Konstas, Ioannis, and Mirella Lapata. "Unsupervised concept-to-text generation with hypergraphs." Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 3 Jun. 2012: 752-761. </ref> apprennent une grammaire hors contexte probabiliste qui décrit comment (dans quel ordre et avec quels mots) les entrées et des champs de la base de données sont verbalisés dans le texte parallèle. (Angeli et al 2010)<ref>Angeli, Gabor, Percy Liang, and Dan Klein. "A simple domain-independent probabilistic approach to generation." Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing 9 Oct. 2010: 502-512.</ref> présente une approche où le processus de génération est décomposé en une séquence de décisions locales, organisées hierarchiquement et apprises par une modèle discriminant. (Wong et Moonery 2007)<ref>Wong, Yuk Wah, and Raymond J Mooney. "Generation by Inverting a Semantic Parser that Uses Statistical Machine Translation." HLT-NAACL 2007: 172-179.</ref> adaptent un système de traduction automatique pour apprendre un modèle qui permet de traduire les données en texte.
+
(Konstas et Lapata 2012)[(Konstas, Ioannis, and Mirella Lapata. "Unsupervised concept-to-text generation with hypergraphs." Proceedings of the 2012 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies 3 Jun. 2012: 752-761.)] apprennent une grammaire hors contexte probabiliste qui décrit comment (dans quel ordre et avec quels mots) les entrées et des champs de la base de données sont verbalisés dans le texte parallèle. (Angeli et al 2010)[(Angeli, Gabor, Percy Liang, and Dan Klein. "A simple domain-independent probabilistic approach to generation." Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing 9 Oct. 2010: 502-512.)] présente une approche où le processus de génération est décomposé en une séquence de décisions locales, organisées hierarchiquement et apprises par une modèle discriminant. (Wong et Moonery 2007)[(Wong, Yuk Wah, and Raymond J Mooney. "Generation by Inverting a Semantic Parser that Uses Statistical Machine Translation." HLT-NAACL 2007: 172-179.)] adaptent un système de traduction automatique pour apprendre un modèle qui permet de traduire les données en texte.
Si ces approches sont souvent efficaces et robustes, la qualité des phrases produites est fortement aléatoire. Un autre inconvénient majeur de ces approches est la nécessité de disposer d'un corpus parallèle de taille suffisante. Pour chaque nouveau domaine abordé, un nouveau corpus doit être créé.
Si ces approches sont souvent efficaces et robustes, la qualité des phrases produites est fortement aléatoire. Un autre inconvénient majeur de ces approches est la nécessité de disposer d'un corpus parallèle de taille suffisante. Pour chaque nouveau domaine abordé, un nouveau corpus doit être créé.
Plus récemment, des approches statistiques ou hybrides symboliques/statistiques ont été proposées qui combinent patrons linguistiques et informations ou modèles statistiques pour générer du texte.
Plus récemment, des approches statistiques ou hybrides symboliques/statistiques ont été proposées qui combinent patrons linguistiques et informations ou modèles statistiques pour générer du texte.
-
(Cimiano et a. 2013)<ref>Cimiano, Philipp et al. "Exploiting ontology lexica for generating natural language texts from RDF data." (2013).
+
(Cimiano et a. 2013)[(Cimiano, Philipp et al. "Exploiting ontology lexica for generating natural language texts from RDF data." (2013).)] apprend la probabilité des structures syntaxiques d'un corpus spécifique au domaine considéré puis utilise ces probabilités pour sélectionner, pendant la génération, l'arbre syntaxique qui maximise un score prenant en compte la probabilité normalisée des arbres syntaxiques, les catégories syntaxiques, les synonymes et le sens lexical des mots étiquettant l'abre et le score données pour chaque alternative par un modèle de langage.
-
</ref> apprend la probabilité des structures syntaxiques d'un corpus spécifique au domaine considéré puis utilise ces probabilités pour sélectionner, pendant la génération, l'arbre syntaxique qui maximise un score prenant en compte la probabilité normalisée des arbres syntaxiques, les catégories syntaxiques, les synonymes et le sens lexical des mots étiquettant l'abre et le score données pour chaque alternative par un modèle de langage.
+
(Kondadadi et al. 2013)[(Kondadadi, Ravi, Blake Howald, and Frank Schilder. "A Statistical NLG Framework for Aggregated Planning and Realization." ACL (1) 6 Aug. 2013: 1406-1415.
-
(Kondadadi et al. 2013)<ref>Kondadadi, Ravi, Blake Howald, and Frank Schilder. "A Statistical NLG Framework for Aggregated Planning and Realization." ACL (1) 6 Aug. 2013: 1406-1415.
+
)] présentent une approche statistique dans laquelle des patrons de phrases appris automatiquement à partir de corpus textuels sont ordonnés pour chaque position dans le texte par un modèle de Machine à vecteurs de support (SVM).
-
</ref> présentent une approche statistique dans laquelle des patrons de phrases appris automatiquement à partir de corpus textuels sont ordonnés pour chaque position dans le texte par un modèle de Machine à vecteurs de support (SVM).
+
Enfin (Perez-Beltrachini et al. 2013)[(beltrachini>Laura Perez-Beltrachini, Claire Gardent and Enrico Franconi. //Incremental Query Generation//. EACL 2014,. Gothenburg, Sweden, April 2014.)] présentent une méthode hybride pour la verbalisation de requêtes sur des bases de connaissances combinant un lexique construit automatiquement à partir des noms des relations et concepts de la base de connaissances, une grammaire spécifiées manuellement et un algorithme de recherche en faisceau. Un avantage majeur, commun à ces approches, est qu'elles minimisent le besoin pour des spécifications manuelles (construction de corpus parallèles, lexiques, grammaires) tout en préservant la possibilité de générer des textes variés et de bonne qualité (pas de langage controlé).
-
Enfin (Perez-Beltrachini et al. 2013)<ref name="beltrachini">Laura Perez-Beltrachini, Claire Gardent and Enrico Franconi. //Incremental Query Generation//. EACL 2014,. Gothenburg, Sweden, April 2014.
+
-
</ref> présentent une méthode hybride pour la verbalisation de requêtes sur des bases de connaissances combinant un lexique construit automatiquement à partir des noms des relations et concepts de la base de connaissances, une grammaire spécifiées manuellement et un algorithme de recherche en faisceau. Un avantage majeur, commun à ces approches, est qu'elles minimisent le besoin pour des spécifications manuelles (construction de corpus parallèles, lexiques, grammaires) tout en préservant la possibilité de générer des textes variés et de bonne qualité (pas de langage controlé).
+
-
Pour générer les descriptions d'itinéraires produites par Golem et FRED, nous nous appuierons sur un système hybride symbolique/statistique développé au LORIA par l'équipe SYNALP. Issu du modèle Quelo-RTGen présenté par (Perez-Beltrachini et al. 2013) <ref name="beltrachini">Laura Perez-Beltrachini, Claire Gardent and Enrico Franconi. //Incremental Query Generation//. EACL 2014, Gothenburg, Sweden, April 2014.</ref>, ce modèle combine:
+
Pour générer les descriptions d'itinéraires produites par Golem et FRED, nous nous appuierons sur un système hybride symbolique/statistique développé au LORIA par l'équipe SYNALP. Issu du modèle Quelo-RTGen présenté par (Perez-Beltrachini et al. 2013) [(beltrachini>Laura Perez-Beltrachini, Claire Gardent and Enrico Franconi. //Incremental Query Generation//. EACL 2014, Gothenburg, Sweden, April 2014.)], ce modèle combine:
- un générateur de lexique qui permet de construire un lexique automatiquement à partir des noms des relations et concepts de la base de connaissances considérés
- un générateur de lexique qui permet de construire un lexique automatiquement à partir des noms des relations et concepts de la base de connaissances considérés
Ligne 117:
Ligne 115:
===== Budget =====
===== Budget =====
-
{|border="1"
+
-
|<center>**Concept**</center>
+
^ **Concept** ^ **Durée** ^ **Montant** ^
-
|**Durée**
+
| Mission d'Aldo Gangemi (LIPN) à Mexico (IIMAS) | 5 jours | €2000 |
-
|**Montant**
+
| Mission de Luis Pineda (IIMAS) à Villetaneuse (LIPN) | 5 jours | €2000 |
-
|-
+
| Mission de Claire Gardent à l'IIMAS (Mexico) | 5 jours | €2000 |
-
|Mission d'Aldo Gangemi (LIPN) à Mexico (IIMAS)
+
| Embauche d'un jeune chercheur par l'IIMAS pour le développement de l'interface FRED+Golem en el IIMAS | 720 heures sur 6 mois | €3000 |
-
|5 jours
+
| Embauche d'un jeune chercheur par le CNRS/LORIA pour la génération de récits cohérents à partir des expériences spatiales du robot Golem (CNRS/LORIA complémentera ce budget à hauteur de 3000 euros pour permettre une embauche sur 6 mois) | 360 heures sur 3 mois | €3000 |
-
|€2000
+
| | |**€12000** |
-
|-
+
-
|Mission de Luis Pineda (IIMAS) à Villetaneuse (LIPN)
+
-
|5 jours
+
-
|€2000
+
-
|-
+
-
|Mission de Claire Gardent à l'IIMAS (Mexico)
+
-
|5 jours
+
-
|€2000
+
-
|-
+
-
|Embauche d'un jeune chercheur par l'IIMAS pour le développement de l'interface FRED+Golem en el IIMAS
+
-
|720 heures sur 6 mois
+
-
|€3000
+
-
|-
+
-
|Embauche d'un jeune chercheur par le CNRS/LORIA pour la génération de récits cohérents à partir des expériences spatiales du robot Golem (CNRS/LORIA complémentera ce budget à hauteur de 3000 euros pour permettre une embauche sur 6 mois)
+
-
|360 heures sur 3 mois
+
-
|€3000
+
-
|-
+
-
|
+
-
|
+
-
|**€12000**
+
-
|-
+
-
|}
+
===== Échéancier de dépenses =====
===== Échéancier de dépenses =====
===== Programme scientifique =====
===== Programme scientifique =====
-
==== [[Golfred Phase 1: First in vitro path|Étape 1: premier parcours //in vitro//]] ====
==== Étape 2: [[Golfred Phase 2: Knowledge extraction with FRED and Golem //in vivo// path|Extraction de connaissances sémantiques (//machine reading//) avec FRED et optimisation du parcours //in vitro//]] ====
+
==== Étape 2: Extraction de connaissances sémantiques ("machine reading") avec FRED et optimisation du parcours "in vitro" ====
==== Étape 4: Production d'un parcours //in vivo// ====
+
==== Étape 4: Production d'un parcours "in vivo" ====
* Début: //Août 2016//
* Début: //Août 2016//
* Durée: 2 mois
* Durée: 2 mois
Ligne 225:
Ligne 204:
* Durée: 1m
* Durée: 1m
* Responsable: IIMAS, CNRS/LORIA, LIPN
* Responsable: IIMAS, CNRS/LORIA, LIPN
-
=== 2: Démo publique dans le musée scientifique universitaire **Universum** ===
+
=== 2: Démo publique dans le musée scientifique universitaire Universum ===
* Durée: 1m
* Durée: 1m
* Responsables: IIMAS, LIPN
* Responsables: IIMAS, LIPN
Ligne 246:
Ligne 225:
===== Perspectives =====
===== Perspectives =====
-
Du point de vue de la robotique, ce projet permettrait d'explorer les liens entre la base de connaissances de Golem<ref>Luis A. Pineda, Lisset Salinas, Ivan V. Meza, Caleb Rascon and Gibran Fuentes. SitLog: A Programming Language for Service Robot Tasks. Int J Adv Robot Syst, 2013</ref> en Prolog et des extensions dynamiques possibles envers le web sémantique et le format RDF. L'idée de que devant des situations imprévues le robot puisse s’appuyer sur le web sémantique pourrait donner lieu des nouvelles méthodes pour structurer des comportements dynamiques dans les modèles cognitifs en robotique. De plus, ce projet permettrait également de préparer le terrain pour une prise en compte du multilinguisme à moyen terme, et en particulier pour la lecture et production de récits en langue française.
+
Du point de vue de la robotique, ce projet permettrait d'explorer les liens entre la base de connaissances de Golem[(Luis A. Pineda, Lisset Salinas, Ivan V. Meza, Caleb Rascon and Gibran Fuentes. SitLog: A Programming Language for Service Robot Tasks. Int J Adv Robot Syst, 2013)] en Prolog et des extensions dynamiques possibles envers le web sémantique et le format RDF. L'idée de que devant des situations imprévues le robot puisse s’appuyer sur le web sémantique pourrait donner lieu des nouvelles méthodes pour structurer des comportements dynamiques dans les modèles cognitifs en robotique. De plus, ce projet permettrait également de préparer le terrain pour une prise en compte du multilinguisme à moyen terme, et en particulier pour la lecture et production de récits en langue française.
-
Le multilinguisme viendrait également enrichir FRED<ref name="fred"></ref>, l'outil d'extraction de connaissances pour le web sémantique, qui actuellement n'a été testée qu'en langue anglaise. Bien que dans ce projet la seule langue traité sera l'anglais, le financement de notre projet par l'AUF renforcerait la perspective de production de récits en français et en espagnol à moyen terme. Par ailleurs, le fait d'embarquer FRED dans des dispositifs sans connectivité internet pourrait donner lieu à une nouvelle famille d'applications embarquées issues du web sémantique.
+
Le multilinguisme viendrait également enrichir FRED[(fred)], l'outil d'extraction de connaissances pour le web sémantique, qui actuellement n'a été testée qu'en langue anglaise. Bien que dans ce projet la seule langue traité sera l'anglais, le financement de notre projet par l'AUF renforcerait la perspective de production de récits en français et en espagnol à moyen terme. Par ailleurs, le fait d'embarquer FRED dans des dispositifs sans connectivité internet pourrait donner lieu à une nouvelle famille d'applications embarquées issues du web sémantique.
-
Du point de vue de la génération de texte, ce projet permet de mettre en place une architecture pour la génération de textes à partir de données RDF. Comme l'indique <ref>A. Rector, N. Drummond, M. Horridge, J. Rogers, H. Knublauch, R. Stevens, H. Wang, and C. Wroe. Owl pizzas: Practical experience of teaching owl-dl: Common errors & common patterns. Engineering Knowledge
+
Du point de vue de la génération de texte, ce projet permet de mettre en place une architecture pour la génération de textes à partir de données RDF. Comme l'indique [(A. Rector, N. Drummond, M. Horridge, J. Rogers, H. Knublauch, R. Stevens, H. Wang, and C. Wroe. Owl pizzas: Practical experience of teaching owl-dl: Common errors & common patterns. Engineering Knowledge
-
in the Age of the Semantic Web, pages 63–81, 2004.</ref>, pour les être humains, les standards (e.g., RDF, OWL) établis par la communauté du web sémantique pour représenter les données et les ontologies sont difficiles à comprendre et à manipuler. Avec le développement du web sémantique, la croissance rapide des données liées (linked data), la prolifération des bases de connaissances et plus généralement, avec l'émergence des données massives, il y a un besoin accru de développer des technologies qui permettent aux être humains un accès simple et naturel aux données orientées machine du web des données. Parce qu'il permet de convertir les données en texte, le système de génération développé dans le cadre de ce projet PIRAT, procure un moyen naturel de présenter ces données de façon intuitive, structurée et cohérente. Plus généralement, de tels systèmes permettent d'expliciter le contenu de données liées ou de bases de connaissances à des utilisateurs non expert; de générer des explications, des descriptions et des résumés à partir de DBPedia ou d'autres bases de connaissances; de guider l'utilisateur dans la formulation de requêtes sur des bases de connaissances; et de présenter l'information contenue dans les données liées publiées par les institutions pour l'héritage culturel telles que les musées et les bibliothèques (cf les exemples listés [[http://museum-api.pbworks.com|ici]]), sous différentes formes (par exemple, pour un utilisateur expert ou novice) et dans différentes langues. De fait, la génération est de plus en plus vue comme "changeant les règles du jeu" (game changing) et de nouvelles compagnies ont récemment émergé qui vise à "faire communiquer les données massives directement, pas en nombres ou en tables qui exigent analyse et explication, mais dans des textes narratifs riches dont on pourrait penser qu'ils ont été produits par un expert humain" (e.g., [[https://www.arria.com/arria-nlg-overview-A130.php|ARIA]]).
+
in the Age of the Semantic Web, pages 63–81, 2004.)], pour les être humains, les standards (e.g., RDF, OWL) établis par la communauté du web sémantique pour représenter les données et les ontologies sont difficiles à comprendre et à manipuler. Avec le développement du web sémantique, la croissance rapide des données liées (linked data), la prolifération des bases de connaissances et plus généralement, avec l'émergence des données massives, il y a un besoin accru de développer des technologies qui permettent aux être humains un accès simple et naturel aux données orientées machine du web des données. Parce qu'il permet de convertir les données en texte, le système de génération développé dans le cadre de ce projet PIRAT, procure un moyen naturel de présenter ces données de façon intuitive, structurée et cohérente. Plus généralement, de tels systèmes permettent d'expliciter le contenu de données liées ou de bases de connaissances à des utilisateurs non expert; de générer des explications, des descriptions et des résumés à partir de DBPedia ou d'autres bases de connaissances; de guider l'utilisateur dans la formulation de requêtes sur des bases de connaissances; et de présenter l'information contenue dans les données liées publiées par les institutions pour l'héritage culturel telles que les musées et les bibliothèques (cf les exemples listés [[http://museum-api.pbworks.com|ici]]), sous différentes formes (par exemple, pour un utilisateur expert ou novice) et dans différentes langues. De fait, la génération est de plus en plus vue comme "changeant les règles du jeu" (game changing) et de nouvelles compagnies ont récemment émergé qui vise à "faire communiquer les données massives directement, pas en nombres ou en tables qui exigent analyse et explication, mais dans des textes narratifs riches dont on pourrait penser qu'ils ont été produits par un expert humain" (e.g., [[https://www.arria.com/arria-nlg-overview-A130.php|ARIA]]).
===== Références =====
===== Références =====
-
<references/>
+
+
~~REFNOTES~~
===== Liens =====
===== Liens =====
* [[https://docs.google.com/document/d/1exU6hK4g98BA2h4xkQYoWTeB8LoyAHSCWbbdnTbCEB8/edit?usp=sharing|Document scientifique envoyé à l'AUF]]
* [[https://docs.google.com/document/d/1exU6hK4g98BA2h4xkQYoWTeB8LoyAHSCWbbdnTbCEB8/edit?usp=sharing|Document scientifique envoyé à l'AUF]]
-
* [[Generación|de relatos de experiencias espaciales en robots de servicio por extracción de conocimiento a partir de textos]]
+
* [[equipes:rcln:ancien_wiki:projets:golfred:es]]
-
* [[Machine|reading for narrative generation of spatial experiences in service robots]]