Description générale de la plateforme

De wikiRcln
Aller à : navigation, rechercher

Labex EFL : Proposition d’opération de recherche (Axe 5 / TAL)

Description générale de l'opération L'objet de cette opération est la réflexion sur la problématique des plate-formes d'annotations des textes utilisées dans le cadre d'une équipe de recherche en TALN et l'élaboration d'une telle plate-forme. Partant du constat que :

  • Les plate-formes actuelles ne sont pas suffisamment adaptables pour répondre en interne aux besoins de l'équipe RCLN dans ses recherches en TALN,
  • La plupart de nos chercheurs (titulaires, doctorants, post-doctorants, ingénieurs...) perdent beaucoup de temps à re-développer les mêmes premiers étages de leur chaîne d'annotation pour parvenir à mettre au point leurs expérimentations ou outils plus spécifiques, l'équipe RCLN a décidé de mettre au point une plate-forme d'annotation basée des textes basée sur sur UIMA.

Les objectifs de cette plate-forme sont multiples :

  1. Permettre aux chercheurs de l'équipe RCLN de ne pas perdre du temps à re-développer systématiquement les mêmes premiers étages d'une plate-forme en faisant à chaque fois face aux mêmes problèmes d'encodage, d'alignement...
  2. Faciliter le partage et la réutilisation d'annotateurs en s'appuyant sur un framework prévu pour cela et utilisé en dehors de l'équipe (UIMA)
  3. Soulever et travailler sur des sujets propres aux plate-formes d'annotations comme la problématique de la représentation des annotations et de la cohérence des annotations.

La plate-forme devrait permettre de produire les types d'annotations suivants:

  • Éléments lexicaux (tokens).
  • Phrases
  • Entités nommées.
  • Parties du discours.
  • Analyses syntaxique de surface (chunking)
  • Analyses syntaxiques de dépendances
  • Termes et termino-concepts
  • Similarité sémantique
  • Catégories textuelles

Il serait alors souhaitable de produire des moteurs d'annotations (AE) multilingues suivants :

  1. Segmentation par éléments lexicaux (tokens)
  2. Segmentation par phrases
  3. Reconnaissance d'entités nommées.
  4. Analyseurs morpho-syntaxique (POS)
  5. Analyseur de dépendances syntaxiques
  6. Analyse de similarité sémantique.
  7. Analyse de co-références.
  8. Catégorisation de textes.
  9. Reconnaissance de termes et/ou candidats à concepts

Ces annotateurs seraient dédiés à l’annotation des textes en français, anglais, espagnol, italien et arabe. Le développement, la documentation et l’évaluation sera réalisé de façon ouverte et collaborative. Les modalités d’utilisation de ses moteurs d’annotations iront de l’utilisateur non averti qui, sans rien installer sur sa machine, se connecte sur un serveur, traite ses donnée et les rapatrier sur sa machine, jusqu’’à l’utilisateur capable de télécharge le code source, l’installer sur sa machine et y effectuer des modifications .

Besoins clés

Fonctionnels

  • L'annotation morpho-syntaxique (POS-tagger)
  • L'annotation d'entités nommées.
  • L'annotation des termes.

Non fonctionnels

  • Développez de composants informatiquement durables, bien documentés, capables d'être réutilisables sans la présence ni physique ni spirituelle de l'auteur.
  • Répondre à trois niveaux d’utilisation :
    • Utilisateur lambda : il s’authentifie sur le serveur lipn-rcln, télécharge ses fichiers à annoter, y réalise le traitement et rapatrie les fichiers annotés.
    • Développeur débutant : il programme un logiciel capable d’accéder au web-service installé sur le serveur lipn-rcln pour faire ses traitements.
    • Développeur averti : il est capable de télécharger le code source, l’installer sur sa machine et l’intégrer à une application à lui.

Point d'architecture

Chaque service offert par la plateforme d'annotation sera composé des éléments suivants :

  • Composant logiciel : Annotation Engine d'UIMA.
  • Documentation ouverte sous la forme des commentaires dans le code source et description objective dans le wiki de la plate-forme d'annotation.
  • Format d'échange statique d'annotations sous la forme des entrées CAS (Common Annotation System d'UIMA) et sorties XML.
  • Serveur d'annotation et méthode d'échange dynamique d'annotations sous la forme d'un service web.

Point méthodologique

Le développement suivra les prescriptions de la méthode [1], où des itérations de développement, test et documentation courtes assurent la bonne correspondance entre le logiciel développé et les besoins qui le motivent. De plus, cette méthode implique des réunions à une périodicité fixe où les performances du logiciel sont visibles.

Plan de travail

Il serait souhaitable d'avoir une première version fonctionnelle de la plateforme dans une période de dix mois. On propose alors d'organiser le développement des moteurs d'annotations (AE) précédemment décrits.

Voici une proposition pour les trois premières itérations, qui correspondent aux besoins clés :

  • Itération 1 [juillet-septembre 2013] Première version fonctionnelle d’un POS Tagger.
  • Itération 2 [novembre-décembre 2013] Première version fonctionnelle de l’annotation d’entités nommées.
  • Itération 3 [février-mars 2014] Première version fonctionnelle de l’annotation de termes.