equipes:rcln:ancien_wiki:guides:annotation_des_parties_du_discours_avec_platanne

Annotation des parties du discours avec platanne.treetagger sur le serveur lipn-rcln

La plateforme d'annotation Platanne encapsule le programme d'annotation morphosyntaxique Tree Tagger dans UIMA. La façon la plus simple de s'en servir est de se connecter sur le serveur lipn-rcln, d'y traiter les données avec le module <tt>platanne.treetagger</tt> et de les rapatrier sur sa machine.

  • Transférer ses fichiers avec scp vers platanne@lipn-rcln. Par exemple, pour transférer le ficher borges.txt par ssh vers le répertoire data/input de /home/platanne à travers le port 60022: <code> $ scp -P 60022 tmp/borges.txt platanne@lipn-rcln:~/data/input/ </code>

Voici la commande pour se connecter via ssh au serveur lipn-rcln avec transfert de fenêtres par le port 60022 (le seul ouvert à l'accès ssh dans le serveur).

$ ssh -X -p 60022 platanne@lipn-rcln

Un mot de passe vous sera demandé, après quoi vous tomberez sur

Password: 
Last login: Wed Nov  6 15:40:23 2013 from 192.168.91.2
[platanne@lipn-rcln ~]$

C'est le script <tt>platanne.treetagger</tt> qui encapsule les fonctionnalités de Tree Tagger dans UIMA. Sa syntaxe est la suivante: <pre> platanne.treetagger.sh [options] <inputfile> Options: -h help -l <language> from the following language list: [en,fr,es,it] -d debug mode: it doesn't erase the output files from $PLATANNECORE/platanne.run </pre> Le résultat est un fichier en format [http://en.wikipedia.org/wiki/XML_Metadata_Interchange XMI] avec les annotations produites par <tt>platanne.treetagger</tt>. Si la langue n'est pas spécifié, <tt>platanne.treetagger</tt> suppose que le texte est en français. Voici quelques exemples d'utilisation:

  • Annoter un texte en français et écrire le résultat sur le répertoire ~/data/output/ [platanne@lipn-rcln ~]$ platanne.treetagger.sh data/examples/input/germinal.txt > data/output/germinal.xmi
  • Annoter un texte en anglais et écrire le résultat sur ~/data/output/ [platanne@lipn-rcln ~]$ platanne.treetagger.sh -len data/examples/input/dickens.txt > data/output/dickens.xmi

Si tout se passe bien, la sortie de cette commande ressemble à: <pre> Starting processing data/examples/input/dickens.txt with options language=en; debugmode=0 File encoding:utf8 ~/code/java/platanne/code/erwan/dev/lipn-uima-core ~ Warning: no JAVAHOME specified. Parsing CPE Descriptor Instantiating CPE Running CPE To abort processing, type “abort” and press enter. CPM Initialization Complete Completed 1 documents; 19984 characters Total Time Elapsed: 7412 ms Initialization Time: 2705 ms Processing Time: 4707 ms

—————— PERFORMANCE REPORT ——————

Component Name: File System Collection Reader Event Type: Process Duration: 102ms (2,2%) Result: success Component Name: TreeTaggerTokenizerAED Event Type: Analysis Duration: 1782ms (38,4%) Component Name: TreeTaggerTokenizerAED Event Type: End of Batch Duration: 1ms (0,02%) Component Name: TreeTaggerAED Event Type: Analysis Duration: 1847ms (39,8%) Component Name: TreeTaggerAED Event Type: End of Batch Duration: 0ms (0%) Component Name: Xmi Writer CAS Consumer Event Type: Analysis Duration: 909ms (19,59%) Component Name: Xmi Writer CAS Consumer Event Type: End of Batch Duration: 0ms (0%) </pre>

La visualisation la plus simple des résultats est faite avec <tt>platanne.annotationview.sh</tt>, qui fait appel à l'<tt>annotationViewer</tt>, logiciel standard pour visualiser des documents annotés avec UIMA. Voici la commande pour l'appeller sur le serveur lipn-rcln.

[platanne@lipn-rcln ~]$ platanne.annotationview.sh

Le résultat de cette commande est l'ouverture de la fenêtre d'Annotation Viewer.

annotation.viewer.1bis.jpg

Dans le champ 'Input Directory' vous devez mettre le répertoire dans lipn-rcln où vos fichiers <tt>.xmi</tt> sont stockés. Le répertoire <tt>/home/platanne/data/examples/output</tt> contient plusieurs fichiers <tt>.xmi</tt> annotés.

Dans le champ 'Type System or AE Descriptor File' vous devez mettre l'adresse suivante, qui contient le type system de Platanne:

/home/platanne/code/java/platanne/code/erwan/dev/lipn-uima-core/desc/fr/lipn/nlptools/uima/treetagger/TreeTaggerAED.xml

Si tout va bien, l'utilisateur voit apparaitre la fenêtre des documents analysées:

annotation.viewer.2ter.jpg

Pour voir le détail des annotations, il faut double-cliquer sur le fichier choisi:

annotation.viewer.3.jpg

  • Dernière modification: il y a 5 ans