Différences

Ci-dessous, les différences entre deux révisions de la page.

--- equipes:rcln:ancien_wiki:outils:lorg [2019/04/03 16:07]
rosse [Parsing]
+++ equipes:rcln:ancien_wiki:outils:lorg [2020/11/23 18:42] (Version actuelle)
garciaflores ↷ Liens modifiés en raison d'un déplacement.
@@ Ligne 1: / Ligne 1: @@
+====== LORG ======
 Parseur syntaxique développé au NLCT de la Dublin City University. Au LIPN on travaille avec [[http://github.com/jihelhere/LORG-Release|la variante de LORG maintenue par Joseph Le Roux]].
@@ Ligne 117: / Ligne 119: @@
 ====  Parsing  ====
 ===  Préconditions  ===
-Le fichier d'entrée doit être déjà segmenté en phrase, une phase par ligne. Pour le présent exemple, on donnera en entrée les premières phrases d'un discours de Martin Luther King (sur lipn-rcln, on peut le trouver dans <tt>/home/lorg/LORG-Release/data/parsing/input/dream.txt</tt>).
+Le fichier d'entrée doit être déjà segmenté en phrase, une phase par ligne. Pour le présent exemple, on donnera en entrée les premières phrases d'un discours de Martin Luther King (sur lipn-rcln, on peut le trouver dans ''/home/lorg/LORG-Release/data/parsing/input/dream.txt'').
 <code>
 I say to you today, my friends, so even though we face the difficulties of today and tomorrow, I still have a dream.
@@ Ligne 123: / Ligne 125: @@
 I have a dream that one day this nation will rise up and live out the true meaning of its creed:
 "We hold these truths to be self-evident: that all men are created equal."
-[[...]]
+[[..:..:outils]]
 </code>
-===  Segmentation en unités lexicales (//Tokenisation//)  ===
+===  Segmentation en unités lexicales (Tokenisation)  ===
 Le fichier d'entrée du parseur doit être segmenté en accord avec le corpus avec lequel le parseur a été entrainé. C'est à dire, si on a entrainé avec un //Penn Treebank// le texte à analyser devra être tokenisé de la même façon que le //Penn Treebank//.
@@ Ligne 133: / Ligne 135: @@
  [[lorg@lipn-rcln|LORG-Release]]$ ./scripts/ptb.tokenizer.sed data/parsing/input/dream.txt > data/parsing/input/dream.ptb.txt
 </code>
-L'étape de tokenisation peut être évité en passant l'option <tt>--input-mode raw</tt> à <tt>twostage_lorgparser</tt>, mais elle ne marche que pour l'anglais.
+L'étape de tokenisation peut être évité en passant l'option ''-%%-%%input-mode raw'' à ''twostage_lorgparser'', mais elle ne marche que pour l'anglais.
 ===  Analyse syntaxique  ===
@@ Ligne 145: / Ligne 147: @@
 </code>
-Cette commande appel <tt>twostage_lorg</tt> avec les options suivantes:</tt>
+Cette commande appel ''twostage_lorg'' avec les options suivantes:
   *  **-g** indique la grammaire PCFG-LA précedemment généré dans la phase d'entraînement
   *  **-o** indique le fichier de sortie de l'analyse syntaxique
   *  **-w EnglishIG** indique le remplacement des occurrences uniques par ses signatures ordonnées d'après son gain d'information en langue anglaise
-  *  **--input mode tok** indique que le texte à analyser a été segmenté en unité lexicales
+  *  **-%%-%%input mode tok** indique que le texte à analyser a été segmenté en unité lexicales
-  *  **--parser-type kmax --k 1** indique que l'analyse sera effectué avec Maxrule, qui produit une liste de k solutions (k=1 ici)
+  *  **-%%-%%parser-type kmax -%%-%%k 1** indique que l'analyse sera effectué avec Maxrule, qui produit une liste de k solutions (k=1 ici)
-  *  **--verbose** pour imprime les scores des solutions et d'autres messages complémentaires
+  *  **-%%-%%verbose** pour imprime les scores des solutions et d'autres messages complémentaires
 Le résultat de la commande:
@@ Ligne 173: / Ligne 175: @@
 overall time: 6.51949s
 </code>
-Et le résultat de l'analyse sur le fichier <tt>dream.txt.tok.parsed</tt>
+Et le résultat de l'analyse sur le fichier ''dream.txt.tok.parsed''
 <code>
     -  ID: 1