equipes:rcln:ancien_wiki:outils:lorg

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
equipes:rcln:ancien_wiki:outils:lorg [2019/04/03 16:07]
rosse [Parsing]
equipes:rcln:ancien_wiki:outils:lorg [2020/11/23 18:42] (Version actuelle)
garciaflores ↷ Liens modifiés en raison d'un déplacement.
Ligne 1: Ligne 1:
 +====== LORG ======
 +
 Parseur syntaxique développé au NLCT de la Dublin City University. Au LIPN on travaille avec [[http://github.com/jihelhere/LORG-Release|la variante de LORG maintenue par Joseph Le Roux]]. Parseur syntaxique développé au NLCT de la Dublin City University. Au LIPN on travaille avec [[http://github.com/jihelhere/LORG-Release|la variante de LORG maintenue par Joseph Le Roux]].
  
Ligne 117: Ligne 119:
 ====  Parsing  ==== ====  Parsing  ====
 ===  Préconditions  === ===  Préconditions  ===
-Le fichier d'entrée doit être déjà segmenté en phrase, une phase par ligne. Pour le présent exemple, on donnera en entrée les premières phrases d'un discours de Martin Luther King (sur lipn-rcln, on peut le trouver dans <tt>/home/lorg/LORG-Release/data/parsing/input/dream.txt</tt>).+Le fichier d'entrée doit être déjà segmenté en phrase, une phase par ligne. Pour le présent exemple, on donnera en entrée les premières phrases d'un discours de Martin Luther King (sur lipn-rcln, on peut le trouver dans ''/home/lorg/LORG-Release/data/parsing/input/dream.txt'').
 <code> <code>
 I say to you today, my friends, so even though we face the difficulties of today and tomorrow, I still have a dream. I say to you today, my friends, so even though we face the difficulties of today and tomorrow, I still have a dream.
Ligne 123: Ligne 125:
 I have a dream that one day this nation will rise up and live out the true meaning of its creed: I have a dream that one day this nation will rise up and live out the true meaning of its creed:
 "We hold these truths to be self-evident: that all men are created equal." "We hold these truths to be self-evident: that all men are created equal."
-[[...]]+[[..:..:outils]]
 </code> </code>
  
-===  Segmentation en unités lexicales (//Tokenisation//)  ===+===  Segmentation en unités lexicales (Tokenisation)  ===
 Le fichier d'entrée du parseur doit être segmenté en accord avec le corpus avec lequel le parseur a été entrainé. C'est à dire, si on a entrainé avec un //Penn Treebank// le texte à analyser devra être tokenisé de la même façon que le //Penn Treebank//. Le fichier d'entrée du parseur doit être segmenté en accord avec le corpus avec lequel le parseur a été entrainé. C'est à dire, si on a entrainé avec un //Penn Treebank// le texte à analyser devra être tokenisé de la même façon que le //Penn Treebank//.
  
Ligne 133: Ligne 135:
  [[lorg@lipn-rcln|LORG-Release]]$ ./scripts/ptb.tokenizer.sed data/parsing/input/dream.txt > data/parsing/input/dream.ptb.txt  [[lorg@lipn-rcln|LORG-Release]]$ ./scripts/ptb.tokenizer.sed data/parsing/input/dream.txt > data/parsing/input/dream.ptb.txt
 </code> </code>
-L'étape de tokenisation peut être évité en passant l'option <tt>--input-mode raw</tt> à <tt>twostage_lorgparser</tt>, mais elle ne marche que pour l'anglais.+L'étape de tokenisation peut être évité en passant l'option ''-%%-%%input-mode raw'' à ''twostage_lorgparser'', mais elle ne marche que pour l'anglais.
  
 ===  Analyse syntaxique  === ===  Analyse syntaxique  ===
Ligne 145: Ligne 147:
 </code> </code>
  
-Cette commande appel <tt>twostage_lorg</tt> avec les options suivantes:</tt>+Cette commande appel ''twostage_lorg'' avec les options suivantes:
   *  **-g** indique la grammaire PCFG-LA précedemment généré dans la phase d'entraînement   *  **-g** indique la grammaire PCFG-LA précedemment généré dans la phase d'entraînement
   *  **-o** indique le fichier de sortie de l'analyse syntaxique   *  **-o** indique le fichier de sortie de l'analyse syntaxique
   *  **-w EnglishIG** indique le remplacement des occurrences uniques par ses signatures ordonnées d'après son gain d'information en langue anglaise   *  **-w EnglishIG** indique le remplacement des occurrences uniques par ses signatures ordonnées d'après son gain d'information en langue anglaise
-  *  **--input mode tok** indique que le texte à analyser a été segmenté en unité lexicales +  *  **-%%-%%input mode tok** indique que le texte à analyser a été segmenté en unité lexicales 
-  *  **--parser-type kmax --k 1** indique que l'analyse sera effectué avec Maxrule, qui produit une liste de k solutions (k=1 ici) +  *  **-%%-%%parser-type kmax -%%-%%k 1** indique que l'analyse sera effectué avec Maxrule, qui produit une liste de k solutions (k=1 ici) 
-  *  **--verbose** pour imprime les scores des solutions et d'autres messages complémentaires+  *  **-%%-%%verbose** pour imprime les scores des solutions et d'autres messages complémentaires
  
 Le résultat de la commande: Le résultat de la commande:
Ligne 173: Ligne 175:
 overall time: 6.51949s overall time: 6.51949s
 </code> </code>
-Et le résultat de l'analyse sur le fichier <tt>dream.txt.tok.parsed</tt>+Et le résultat de l'analyse sur le fichier ''dream.txt.tok.parsed''
 <code> <code>
     -  ID: 1     -  ID: 1
  • Dernière modification: il y a 5 ans