Annotation des parties du discours avec platanne.treetagger sur le serveur lipn-rcln
La plateforme d'annotation Platanne encapsule le programme d'annotation morphosyntaxique Tree Tagger dans UIMA. La façon la plus simple de s'en servir est de se connecter sur le serveur lipn-rcln, d'y traiter les données avec le module platanne.treetagger et de les rapatrier sur sa machine.
Annoter des documents sur le serveur lipn-rcln
Étape 0: Préconditions
- Transférer ses fichiers avec scp vers platanne@lipn-rcln. Par exemple, pour transférer le ficher
borges.txtpar ssh vers le répertoiredata/inputde/home/platanneà travers le port60022: <code> $ scp -P 60022 tmp/borges.txt platanne@lipn-rcln:~/data/input/ </code>
Étape 1: Connexion ssh vers le serveur lipn-rcln
Voici la commande pour se connecter via ssh au serveur lipn-rcln avec transfert de fenêtres par le port 60022 (le seul ouvert à l'accès ssh dans le serveur).
$ ssh -X -p 60022 platanne@lipn-rcln
Un mot de passe vous sera demandé, après quoi vous tomberez sur
Password: Last login: Wed Nov 6 15:40:23 2013 from 192.168.91.2 [platanne@lipn-rcln ~]$
Étape 2: Traitement des données
C'est le script platanne.treetagger qui encapsule les fonctionnalités de Tree Tagger dans UIMA. Sa syntaxe est la suivante:
platanne.treetagger.sh [options] <input_file>
Options:
-h help
-l <language> from the following language list: [en,fr,es,it]
-d debug mode: it doesn't erase the output files from
$PLATANNE_CORE/platanne.run
Le résultat est un fichier en format XMI avec les annotations produites par platanne.treetagger. Si la langue n'est pas spécifié, platanne.treetagger suppose que le texte est en français. Voici quelques exemples d'utilisation:
- Annoter un texte en français et écrire le résultat sur le répertoire
~/data/output/<code>[platanne@lipn-rcln ~]$ platanne.treetagger.sh data/examples/input/germinal.txt > data/output/germinal.xmi</code> - Annoter un texte en anglais et écrire le résultat sur
~/data/output/<code>[platanne@lipn-rcln ~]$ platanne.treetagger.sh -len data/examples/input/dickens.txt > data/output/dickens.xmi</code>
Si tout se passe bien, la sortie de cette commande ressemble à:
Starting processing data/examples/input/dickens.txt with options language=en; debug_mode=0 File encoding:utf8 ~/code/java/platanne/code/erwan/dev/lipn-uima-core ~ Warning: no JAVA_HOME specified. Parsing CPE Descriptor Instantiating CPE Running CPE To abort processing, type "abort" and press enter. CPM Initialization Complete Completed 1 documents; 19984 characters Total Time Elapsed: 7412 ms Initialization Time: 2705 ms Processing Time: 4707 ms ------------------ PERFORMANCE REPORT ------------------ Component Name: File System Collection Reader Event Type: Process Duration: 102ms (2,2%) Result: success Component Name: TreeTaggerTokenizerAED Event Type: Analysis Duration: 1782ms (38,4%) Component Name: TreeTaggerTokenizerAED Event Type: End of Batch Duration: 1ms (0,02%) Component Name: TreeTaggerAED Event Type: Analysis Duration: 1847ms (39,8%) Component Name: TreeTaggerAED Event Type: End of Batch Duration: 0ms (0%) Component Name: Xmi Writer CAS Consumer Event Type: Analysis Duration: 909ms (19,59%) Component Name: Xmi Writer CAS Consumer Event Type: End of Batch Duration: 0ms (0%)
Étape 3: Visualisation des données
La visualisation la plus simple des résultats est faite avec platanne.annotationview.sh, qui fait appel à l' annotationViewer, logiciel standard pour visualiser des documents annotés avec UIMA. Voici la commande pour l'appeller sur le serveur lipn-rcln.
[platanne@lipn-rcln ~]$ platanne.annotationview.sh
Le résultat de cette commande est l'ouverture de la fenêtre d'Annotation Viewer.
Dans le champ Input Directory vous devez mettre le répertoire dans lipn-rcln où vos fichiers .xmi sont stockés. Le répertoire /home/platanne/data/examples/output contient plusieurs fichiers .xmi annotés.
Dans le champ Type System or AE Descriptor File vous devez mettre l'adresse suivante, qui contient le type system de Platanne:
/home/platanne/code/java/platanne/code/erwan/dev/lipn-uima-core/desc/fr/lipn/nlptools/uima/treetagger/TreeTaggerAED.xml
Si tout va bien, l'utilisateur voit apparaitre la fenêtre des documents analysées:
Pour voir le détail des annotations, il faut double-cliquer sur le fichier choisi:


