Annotation sémantique et exploration textuelle

L’analyse sémantique occupe une place importante dans les travaux de l’équipe RCLN.
Avec le développement du web et des technologies sémantiques, cette analyse tend à
être encodée comme une annotation sémantique ancrée dans le texte source : analyser
un texte revient alors à apposer sur celui-ci un ensemble cohérent d’annotations, la
sémantique de ces annotations étant donnée par un modèle formel extra-linguistique
explicite et plus ou moins riche (une taxonomie, une ontologie, un graphe de données).

Les corpus annotés sont utilisés comme données de laboratoire (pour entraîner ou
évaluer des analyseurs) mais servent aussi dans différents types d’applications.

Rares sont les processus d’analyse sémantique entièrement automatiques : l’inter-
vention humaine est nécessaire pour annoter des données d’entraînement, concevoir
le modèle sémantique guidant l’analyse, écrire des règles d’extraction ou corriger les
résultats. La qualité et la robustesse des méthodes proposées dépendent d’une juste
répartition entre calcul automatique et interprétation.

Contrôler la qualité des annotations manuelles

Les données annotées sont essentielles à beaucoup d’applications de TAL. Que
l’on produise des annotations ou que l’on réutilise des données annotées, il est
toujours important de contrôler la qualité des annotations produites. Nous avons
proposé une méthode pour gérer des campagnes d’annotation en tenant compte
du coût d’annotation, du volume de corpus annoté et de la qualité attendue. Cette
méthode repose sur une grille d’analyse qui sert à évaluer a priori la complexité
d’une tâche d’annotation [ CI-6 ].

Nous avons également étudié les annotations « naturelles » ou « d’usage » que l’on
trouve dans des folksonomies, dont les ressources sont associées à des étiquettes ou

Entraîner des annotateurs sémantiques

Pour les tâches d’annotation simples (i.e. étiquetage sémantique), on peut entraîner
des outils d’annotation à partir de corpus préalablement annotés à la main. Cependant,
comme il est difficile d’annoter de manière systématique de grands corpus, il faut pro-
poser des approches permettant d’entraîner l’annotateur avec peu de données quitte à
corriger les prédictions erronées après coup.

Pour minimiser l’effort humain requis pour écrire des règles d’annotation ou pour
annoter des données d’entraînement, nous avons proposé une approche hybride et un
système interactif qui permet à l’utilisateur de travailler de manière duale sur les règles
d’extraction d’information et les exemples d’apprentissage [CO-14, CO-31]. Elle montre
dans sa thèse que l’apprentissage sur un corpus réduit, avec notamment un module
d’apprentissage actif pour une sélection intelligente d’exemples, permet un gain consi-
dérable en temps d’apprentissage sans dégradation de performance.

Nous avons exploré en parallèle une méthode permettant de prédire des annotations
sémantiques sur la base d’un petit corpus d’entraînement en modélisant la tâche comme
un système de traduction statistique à base de segments [CO-39]. L’approche, qui a été
testée sur des textes réglementaires mais avec un volume réduit d’annotations initiales,
montre que l’on peut assister efficacement le travail d’annotation des experts humains.

Combiner analyse et interprétation

Penser l’interaction entre analyse sémantique automatique et interprétation par l’ana-
lyste humain est essentiel pour la mise en œuvre de méthodes de traitement automa-
tique des langues en contexte réel.

Nous avons proposé une méthode et un outil (semex) permettant d’annoter les textes
réglementaires pour les intégrer dans des systèmes d’aide à la décision [CI-5]. Il s’agit
de sélectionner dans les textes les passages exprimant des règles et de les formaliser
pour pouvoir les implémenter dans des systèmes de décisions, expliquer les décisions
prises, gérer la cohérence de la base de règles obtenue et au besoin la mettre à jour
quand les textes sources évoluent [TU-1].

L’annotation des règles des textes juridiques et réglementaires est aussi utile pour
l’analyse des sources juridiques et des interprétations qui peuvent en être faites [CI-44].
Un langage contrôlé abstrait, hCL [CO-63], a été proposé comme langage d’annota-
tion et nous avons montré comment les outils de traitement automatique des langues
peuvent aider à traduire les règles écrites en langage naturel dans ce langage contrôlé.
Nous étudions en parallèle le standard LegalRuleML comme une alternative à hCL
[CI-44].

Comme l’annotation sémantique repose à la fois sur l’analyse des données textuelles
et sur des connaissances extra-linguistiques, il faut concevoir un processus dynamique
articulant révision des connaissances et analyse. C’est l’objectif de la thèse d’Ivan Gar-
rido Marquez sur des annotations de blogs.