Annotation sémantique et exploration textuelle
L’analyse sémantique occupe une place importante dans les travaux de l’équipe RCLN. Avec le développement du web et des technologies sémantiques, cette analyse tend à être encodée comme une annotation sémantique ancrée dans le texte source : analyser un texte revient alors à apposer sur celui-ci un ensemble cohérent d’annotations, la sémantique de ces annotations étant donnée par un modèle formel extra-linguistique explicite et plus ou moins riche (une taxonomie, une ontologie, un graphe de données).
Les corpus annotés sont utilisés comme données de laboratoire (pour entraîner ou évaluer des analyseurs) mais servent aussi dans différents types d’applications.
Rares sont les processus d’analyse sémantique entièrement automatiques : l’intervention humaine est nécessaire pour annoter des données d’entraînement, concevoir le modèle sémantique guidant l’analyse, écrire des règles d’extraction ou corriger les résultats. La qualité et la robustesse des méthodes proposées dépendent d’une juste répartition entre calcul automatique et interprétation.
Contrôler la qualité des annotations manuelles
Les données annotées sont essentielles à beaucoup d’applications de TAL. Que l’on produise des annotations ou que l’on réutilise des données annotées, il est toujours important de contrôler la qualité des annotations produites. Nous avons proposé une méthode pour gérer des campagnes d’annotation en tenant compte du coût d’annotation, du volume de corpus annoté et de la qualité attendue. Cette méthode repose sur une grille d’analyse qui sert à évaluer a priori la complexité d’une tâche d’annotation [ CI-6 ].
Nous avons également étudié les annotations « naturelles » ou « d’usage » que l’on trouve dans des folksonomies, dont les ressources sont associées à des étiquettes.
Entraîner des annotateurs sémantiques
Pour les tâches d’annotation simples (i.e. étiquetage sémantique), on peut entraîner des outils d’annotation à partir de corpus préalablement annotés à la main. Cependant, comme il est difficile d’annoter de manière systématique de grands corpus, il faut proposer des approches permettant d’entraîner l’annotateur avec peu de données quitte à corriger les prédictions erronées après coup.
Pour minimiser l’effort humain requis pour écrire des règles d’annotation ou pour annoter des données d’entraînement, nous avons proposé une approche hybride et un système interactif qui permet à l’utilisateur de travailler de manière duale sur les règles d’extraction d’information et les exemples d’apprentissage [CO-14, CO-31]. Elle montre dans sa thèse que l’apprentissage sur un corpus réduit, avec notamment un module d’apprentissage actif pour une sélection intelligente d’exemples, permet un gain considérable en temps d’apprentissage sans dégradation de performance.
Nous avons exploré en parallèle une méthode permettant de prédire des annotations sémantiques sur la base d’un petit corpus d’entraînement en modélisant la tâche comme un système de traduction statistique à base de segments [CO-39]. L’approche, qui a été testée sur des textes réglementaires mais avec un volume réduit d’annotations initiales, montre que l’on peut assister efficacement le travail d’annotation des experts humains.
Combiner analyse et interprétation
Penser l’interaction entre analyse sémantique automatique et interprétation par l’analyste humain est essentiel pour la mise en œuvre de méthodes de traitement automatique des langues en contexte réel.
Nous avons proposé une méthode et un outil (semex) permettant d’annoter les textes réglementaires pour les intégrer dans des systèmes d’aide à la décision [CI-5]. Il s’agit de sélectionner dans les textes les passages exprimant des règles et de les formaliser pour pouvoir les implémenter dans des systèmes de décisions, expliquer les décisions prises, gérer la cohérence de la base de règles obtenue et au besoin la mettre à jour quand les textes sources évoluent [TU-1].
L’annotation des règles des textes juridiques et réglementaires est aussi utile pour l’analyse des sources juridiques et des interprétations qui peuvent en être faites [CI-44]. Un langage contrôlé abstrait, hCL [CO-63], a été proposé comme langage d’annotation et nous avons montré comment les outils de traitement automatique des langues peuvent aider à traduire les règles écrites en langage naturel dans ce langage contrôlé. Nous étudions en parallèle le standard LegalRuleML comme une alternative à hCL [CI-44].
Comme l’annotation sémantique repose à la fois sur l’analyse des données textuelles et sur des connaissances extra-linguistiques, il faut concevoir un processus dynamique articulant révision des connaissances et analyse. C’est l’objectif de la thèse d’Ivan Garrido Marquez sur des annotations de blogs.