La plateforme d'annotation Platanne encapsule le programme d'annotation morphosyntaxique Tree Tagger dans UIMA. La façon la plus simple de s'en servir est de se connecter sur le serveur lipn-rcln, d'y traiter les données avec le module platanne.treetagger et de les rapatrier sur sa machine.
borges.txt par ssh vers le répertoire data/input de /home/platanne à travers le port 60022:
<code>
$ scp -P 60022 tmp/borges.txt platanne@lipn-rcln:~/data/input/
</code>Voici la commande pour se connecter via ssh au serveur lipn-rcln avec transfert de fenêtres par le port 60022 (le seul ouvert à l'accès ssh dans le serveur).
$ ssh -X -p 60022 platanne@lipn-rcln
Un mot de passe vous sera demandé, après quoi vous tomberez sur
Password: Last login: Wed Nov 6 15:40:23 2013 from 192.168.91.2 [platanne@lipn-rcln ~]$
C'est le script platanne.treetagger qui encapsule les fonctionnalités de Tree Tagger dans UIMA. Sa syntaxe est la suivante:
platanne.treetagger.sh [options] <input_file>
Options:
-h help
-l <language> from the following language list: [en,fr,es,it]
-d debug mode: it doesn't erase the output files from
$PLATANNE_CORE/platanne.run
Le résultat est un fichier en format XMI avec les annotations produites par platanne.treetagger. Si la langue n'est pas spécifié, platanne.treetagger suppose que le texte est en français. Voici quelques exemples d'utilisation:
~/data/output/
<code>[platanne@lipn-rcln ~]$ platanne.treetagger.sh data/examples/input/germinal.txt > data/output/germinal.xmi</code>
~/data/output/
<code>[platanne@lipn-rcln ~]$ platanne.treetagger.sh -len data/examples/input/dickens.txt > data/output/dickens.xmi</code>Si tout se passe bien, la sortie de cette commande ressemble à:
Starting processing data/examples/input/dickens.txt with options language=en; debug_mode=0 File encoding:utf8 ~/code/java/platanne/code/erwan/dev/lipn-uima-core ~ Warning: no JAVA_HOME specified. Parsing CPE Descriptor Instantiating CPE Running CPE To abort processing, type "abort" and press enter. CPM Initialization Complete Completed 1 documents; 19984 characters Total Time Elapsed: 7412 ms Initialization Time: 2705 ms Processing Time: 4707 ms ------------------ PERFORMANCE REPORT ------------------ Component Name: File System Collection Reader Event Type: Process Duration: 102ms (2,2%) Result: success Component Name: TreeTaggerTokenizerAED Event Type: Analysis Duration: 1782ms (38,4%) Component Name: TreeTaggerTokenizerAED Event Type: End of Batch Duration: 1ms (0,02%) Component Name: TreeTaggerAED Event Type: Analysis Duration: 1847ms (39,8%) Component Name: TreeTaggerAED Event Type: End of Batch Duration: 0ms (0%) Component Name: Xmi Writer CAS Consumer Event Type: Analysis Duration: 909ms (19,59%) Component Name: Xmi Writer CAS Consumer Event Type: End of Batch Duration: 0ms (0%)
La visualisation la plus simple des résultats est faite avec platanne.annotationview.sh, qui fait appel à l' annotationViewer, logiciel standard pour visualiser des documents annotés avec UIMA. Voici la commande pour l'appeller sur le serveur lipn-rcln.
[platanne@lipn-rcln ~]$ platanne.annotationview.sh
Le résultat de cette commande est l'ouverture de la fenêtre d'Annotation Viewer.
Dans le champ Input Directory vous devez mettre le répertoire dans lipn-rcln où vos fichiers .xmi sont stockés. Le répertoire /home/platanne/data/examples/output contient plusieurs fichiers .xmi annotés.
Dans le champ Type System or AE Descriptor File vous devez mettre l'adresse suivante, qui contient le type system de Platanne:
/home/platanne/code/java/platanne/code/erwan/dev/lipn-uima-core/desc/fr/lipn/nlptools/uima/treetagger/TreeTaggerAED.xml
Si tout va bien, l'utilisateur voit apparaitre la fenêtre des documents analysées:
Pour voir le détail des annotations, il faut double-cliquer sur le fichier choisi: