Annotation des parties du discours avec platanne.treetagger sur le serveur lipn-rcln
La plateforme d'annotation Platanne encapsule le programme d'annotation morphosyntaxique Tree Tagger dans UIMA. La façon la plus simple de s'en servir est de se connecter sur le serveur lipn-rcln, d'y traiter les données avec le module platanne.treetagger et de les rapatrier sur sa machine.
Annoter des documents sur le serveur lipn-rcln
Étape 0: Préconditions
- Transférer ses fichiers avec scp vers platanne@lipn-rcln. Par exemple, pour transférer le ficher
borges.txt
par ssh vers le répertoiredata/input
de/home/platanne
à travers le port60022
: <code> $ scp -P 60022 tmp/borges.txt platanne@lipn-rcln:~/data/input/ </code>
Étape 1: Connexion ssh vers le serveur lipn-rcln
Voici la commande pour se connecter via ssh au serveur lipn-rcln avec transfert de fenêtres par le port 60022 (le seul ouvert à l'accès ssh dans le serveur).
$ ssh -X -p 60022 platanne@lipn-rcln
Un mot de passe vous sera demandé, après quoi vous tomberez sur
Password: Last login: Wed Nov 6 15:40:23 2013 from 192.168.91.2 [platanne@lipn-rcln ~]$
Étape 2: Traitement des données
C'est le script platanne.treetagger
qui encapsule les fonctionnalités de Tree Tagger dans UIMA. Sa syntaxe est la suivante:
platanne.treetagger.sh [options] <input_file> Options: -h help -l <language> from the following language list: [en,fr,es,it] -d debug mode: it doesn't erase the output files from $PLATANNE_CORE/platanne.run
Le résultat est un fichier en format XMI avec les annotations produites par platanne.treetagger
. Si la langue n'est pas spécifié, platanne.treetagger
suppose que le texte est en français. Voici quelques exemples d'utilisation:
- Annoter un texte en français et écrire le résultat sur le répertoire
~/data/output/
<code>[platanne@lipn-rcln ~]$ platanne.treetagger.sh data/examples/input/germinal.txt > data/output/germinal.xmi</code> - Annoter un texte en anglais et écrire le résultat sur
~/data/output/
<code>[platanne@lipn-rcln ~]$ platanne.treetagger.sh -len data/examples/input/dickens.txt > data/output/dickens.xmi</code>
Si tout se passe bien, la sortie de cette commande ressemble à:
Starting processing data/examples/input/dickens.txt with options language=en; debug_mode=0 File encoding:utf8 ~/code/java/platanne/code/erwan/dev/lipn-uima-core ~ Warning: no JAVA_HOME specified. Parsing CPE Descriptor Instantiating CPE Running CPE To abort processing, type "abort" and press enter. CPM Initialization Complete Completed 1 documents; 19984 characters Total Time Elapsed: 7412 ms Initialization Time: 2705 ms Processing Time: 4707 ms ------------------ PERFORMANCE REPORT ------------------ Component Name: File System Collection Reader Event Type: Process Duration: 102ms (2,2%) Result: success Component Name: TreeTaggerTokenizerAED Event Type: Analysis Duration: 1782ms (38,4%) Component Name: TreeTaggerTokenizerAED Event Type: End of Batch Duration: 1ms (0,02%) Component Name: TreeTaggerAED Event Type: Analysis Duration: 1847ms (39,8%) Component Name: TreeTaggerAED Event Type: End of Batch Duration: 0ms (0%) Component Name: Xmi Writer CAS Consumer Event Type: Analysis Duration: 909ms (19,59%) Component Name: Xmi Writer CAS Consumer Event Type: End of Batch Duration: 0ms (0%)
Étape 3: Visualisation des données
La visualisation la plus simple des résultats est faite avec platanne.annotationview.sh
, qui fait appel à l' annotationViewer
, logiciel standard pour visualiser des documents annotés avec UIMA. Voici la commande pour l'appeller sur le serveur lipn-rcln.
[platanne@lipn-rcln ~]$ platanne.annotationview.sh
Le résultat de cette commande est l'ouverture de la fenêtre d'Annotation Viewer.
Dans le champ Input Directory vous devez mettre le répertoire dans lipn-rcln où vos fichiers .xmi
sont stockés. Le répertoire /home/platanne/data/examples/output
contient plusieurs fichiers .xmi
annotés.
Dans le champ Type System or AE Descriptor File vous devez mettre l'adresse suivante, qui contient le type system de Platanne:
/home/platanne/code/java/platanne/code/erwan/dev/lipn-uima-core/desc/fr/lipn/nlptools/uima/treetagger/TreeTaggerAED.xml
Si tout va bien, l'utilisateur voit apparaitre la fenêtre des documents analysées:
Pour voir le détail des annotations, il faut double-cliquer sur le fichier choisi: