Annotation des parties du discours avec platanne.treetagger

De wikiRcln
Aller à : navigation, rechercher

La plateforme d'annotation Platanne encapsule le programme d'annotation morphosyntaxique Tree Tagger dans UIMA. La façon la plus simple de s'en servir est de se connecter sur le serveur lipn-rcln, d'y traiter les données avec le module platanne.treetagger et de les rapatrier sur sa machine.

Annoter des documents sur le serveur lipn-rcln

Étape 0: Préconditions

  • Transférer ses fichiers avec scp vers platanne@lipn-rcln. Par exemple, pour transférer le ficher borges.txt par ssh vers le répertoire data/input de /home/platanne à travers le port 60022:
$ scp -P 60022 tmp/borges.txt platanne@lipn-rcln:~/data/input/

Étape 1: Connexion ssh vers le serveur lipn-rcln

Voici la commande pour se connecter via ssh au serveur lipn-rcln avec transfert de fenêtres par le port 60022 (le seul ouvert à l'accès ssh dans le serveur).

$ ssh -X -p 60022 platanne@lipn-rcln

Un mot de passe vous sera demandé, après quoi vous tomberez sur

Password: 
Last login: Wed Nov  6 15:40:23 2013 from 192.168.91.2
[platanne@lipn-rcln ~]$

Étape 2: Traitement des données

C'est le script platanne.treetagger qui encapsule les fonctionnalités de Tree Tagger dans UIMA. Sa syntaxe est la suivante:

 platanne.treetagger.sh [options] <input_file>
 Options:
    -h help 
    -l <language> from the following language list: [en,fr,es,it] 
    -d debug mode: it doesn't erase the output files from 
       $PLATANNE_CORE/platanne.run

Le résultat est un fichier en format XMI avec les annotations produites par platanne.treetagger. Si la langue n'est pas spécifié, platanne.treetagger suppose que le texte est en français. Voici quelques exemples d'utilisation:

  • Annoter un texte en français et écrire le résultat sur le répertoire ~/data/output/
[platanne@lipn-rcln ~]$ platanne.treetagger.sh data/examples/input/germinal.txt > data/output/germinal.xmi
  • Annoter un texte en anglais et écrire le résultat sur ~/data/output/
[platanne@lipn-rcln ~]$ platanne.treetagger.sh -len data/examples/input/dickens.txt > data/output/dickens.xmi

Si tout se passe bien, la sortie de cette commande ressemble à:

Starting processing data/examples/input/dickens.txt with options language=en; debug_mode=0
File encoding:utf8
~/code/java/platanne/code/erwan/dev/lipn-uima-core ~
Warning: no JAVA_HOME specified.
Parsing CPE Descriptor
Instantiating CPE
Running CPE
To abort processing, type "abort" and press enter.
CPM Initialization Complete
Completed 1 documents; 19984 characters
Total Time Elapsed: 7412 ms 
Initialization Time: 2705 ms
Processing Time: 4707 ms


 ------------------ PERFORMANCE REPORT ------------------

Component Name: File System Collection Reader
Event Type: Process
Duration: 102ms (2,2%)
Result: success
Component Name: TreeTaggerTokenizerAED
Event Type: Analysis
Duration: 1782ms (38,4%)
Component Name: TreeTaggerTokenizerAED
Event Type: End of Batch
Duration: 1ms (0,02%)
Component Name: TreeTaggerAED
Event Type: Analysis
Duration: 1847ms (39,8%)
Component Name: TreeTaggerAED
Event Type: End of Batch
Duration: 0ms (0%)
Component Name: Xmi Writer CAS Consumer
Event Type: Analysis
Duration: 909ms (19,59%)
Component Name: Xmi Writer CAS Consumer
Event Type: End of Batch
Duration: 0ms (0%)

Étape 3: Visualisation des données

La visualisation la plus simple des résultats est faite avec platanne.annotationview.sh, qui fait appel à l'annotationViewer, logiciel standard pour visualiser des documents annotés avec UIMA. Voici la commande pour l'appeller sur le serveur lipn-rcln.

[platanne@lipn-rcln ~]$ platanne.annotationview.sh

Le résultat de cette commande est l'ouverture de la fenêtre d'Annotation Viewer.

Annotation.viewer.1bis.jpg

Dans le champ Input Directory vous devez mettre le répertoire dans lipn-rcln où vos fichiers .xmi sont stockés. Le répertoire /home/platanne/data/examples/output contient plusieurs fichiers .xmi annotés.

Dans le champ Type System or AE Descriptor File vous devez mettre l'adresse suivante, qui contient le type system de Platanne:

/home/platanne/code/java/platanne/code/erwan/dev/lipn-uima-core/desc/fr/lipn/nlptools/uima/treetagger/TreeTaggerAED.xml

Si tout va bien, l'utilisateur voit apparaitre la fenêtre des documents analysées:

Annotation.viewer.2ter.jpg

Pour voir le détail des annotations, il faut double-cliquer sur le fichier choisi:

Annotation.viewer.3.jpg