equipes:rcln:ancien_wiki:projets:semeval:instalacion_sopa

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Prochaine révision
Révision précédente
equipes:rcln:ancien_wiki:projets:semeval:instalacion_sopa [2019/04/08 14:47]
rosse créée
equipes:rcln:ancien_wiki:projets:semeval:instalacion_sopa [2020/11/23 18:41] (Version actuelle)
garciaflores ↷ Page déplacée de equipes:rcln:projets:semeval:instalacion_sopa à equipes:rcln:ancien_wiki:projets:semeval:instalacion_sopa
Ligne 1: Ligne 1:
 +====== Diario de instalación de SOPA ======
 +
 =====  Instrucciones para instalar SOPA  ===== =====  Instrucciones para instalar SOPA  =====
  
Ligne 5: Ligne 7:
 <code>git clone https://github.com/dbuscaldi/SOPA</code> <code>git clone https://github.com/dbuscaldi/SOPA</code>
  
-Este es el directorio base de SOPA (o <code>$SOPA_HOME</code>)+Este es el directorio base de SOPA (o ''$SOPA_HOME'')
  
 ====  Instalar software externo (sugerencia pornerlo dentro del directorio de SOPA)  ==== ====  Instalar software externo (sugerencia pornerlo dentro del directorio de SOPA)  ====
Ligne 29: Ligne 31:
  
 Descargar (de la máquina de Davide o de la de Iván) el archivo Descargar (de la máquina de Davide o de la de Iván) el archivo
- IRindexes.sopa.semeval.clean.tar.gz (? Gb; md5sum=?)+<code> IRindexes.sopa.semeval.clean.tar.gz (? Gb; md5sum=?)</code>
 Este archivo contiene los siguientes recursos: Este archivo contiene los siguientes recursos:
  
Ligne 43: Ligne 45:
     * <code>$SOPA_HOME/indexes/EFE_UN_indexed (2.4 Gb)</code>     * <code>$SOPA_HOME/indexes/EFE_UN_indexed (2.4 Gb)</code>
  
-Descomprimirlos en <code>$SOPA_HOME</code> +Descomprimirlos en ''$SOPA_HOME'' 
- $ tar xzvf IRindexes.sopa.semeval.clean.tar.gz .+<code> $ tar xzvf IRindexes.sopa.semeval.clean.tar.gz .</code>
  
 ====  Compilar el código  ==== ====  Compilar el código  ====
Ligne 72: Ligne 74:
 </code> </code>
  
-Además hay que remplazar la línea 107 de <code>corenlp.py</code>, por la siguiente:+Además hay que remplazar la línea 107 de ''corenlp.py'', por la siguiente:
 <code> <code>
 rel, left, right = split_entry rel, left, right = split_entry
Ligne 121: Ligne 123:
 ===  TestCoreNLP  === ===  TestCoreNLP  ===
  
-La herramienta de prueba, por el momento tiene un error y hay que agregar la siguiente línea en el archivo <code>$SOPA_HOME/src/fr/lipn/sts/TestCoreNLP.java</code>>+La herramienta de prueba, por el momento tiene un error y hay que agregar la siguiente línea en el archivo ''$SOPA_HOME/src/fr/lipn/sts/TestCoreNLP.java'':
  
- GoogleTFFactory.init(SOPAConfiguration.GoogleTF);+<code> GoogleTFFactory.init(SOPAConfiguration.GoogleTF);</code>
  
 Una opción es: Una opción es:
 +<code>
  GoogleTFFactory.init(SOPAConfiguration.GoogleTF);  GoogleTFFactory.init(SOPAConfiguration.GoogleTF);
  StanfordCoreNLP pipeline = new StanfordCoreNLP(props);  StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
 +</code>
  
 Despues recompilar, y ejecutar Despues recompilar, y ejecutar
Ligne 139: Ligne 142:
 ===  UkWaCIndexer  === ===  UkWaCIndexer  ===
  
-Cambiar las líneas 22 y 23 del archivo UkWaCIndexer.java en el directorio $SOPA_HOME/src/fr/lipn/sts/ir/indexing/ +Cambiar las líneas 22 y 23 del archivo UkWaCIndexer.java en el directorio ''$SOPA_HOME/src/fr/lipn/sts/ir/indexing/'' 
 +<code>
  String filename="/media/expT1/corpora/WaCky/en/ukwac/cleaned_pre.pos.corpus";  String filename="/media/expT1/corpora/WaCky/en/ukwac/cleaned_pre.pos.corpus";
  String dest="/media/expT1/index/ukwac";  String dest="/media/expT1/index/ukwac";
 +</code>
  
 Sustituir por: Sustituir por:
 +<code>
  String filename="$SOPA_HOME/indexes/ukwac/cleaned_pre.pos.corpus";  String filename="$SOPA_HOME/indexes/ukwac/cleaned_pre.pos.corpus";
  String dest="$SOPA_HOME/indexes/ukwac";  String dest="$SOPA_HOME/indexes/ukwac";
 +</code>
  
 **OJO:** hay que reemplazar $SOPA_HOME por la ruta absoluta en donde está instalada SOPA **OJO:** hay que reemplazar $SOPA_HOME por la ruta absoluta en donde está instalada SOPA
Ligne 154: Ligne 158:
 ===  SemanticComparer  === ===  SemanticComparer  ===
  
-  *  Cambiar la línea 114 en  <code>$SOPA_HOME/src/fr/lipn/sts/SemanticComparer.java </code>+  *  Cambiar la línea 114 en  ''$SOPA_HOME/src/fr/lipn/sts/SemanticComparer.java ''
 <code> props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, sentiment, parse");</code> <code> props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, sentiment, parse");</code>
 por por
 <code> props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, parse, sentiment");</code> <code> props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, parse, sentiment");</code>
  
-  *  Cambiar también la línea 174 del mismo <code>SemanticComparer.java</code>+  *  Cambiar también la línea 174 del mismo ''SemanticComparer.java''
  
 Reemplazar Reemplazar
-  IRSimilarity irswac= new IRSimilarity("/media/expT1/index/ukwac");+<code> IRSimilarity irswac= new IRSimilarity("/media/expT1/index/ukwac");</code>
 por por
-  IRSimilarity irswac= new IRSimilarity("$SOPA_HOME/indexes/ukwac"); +<code>  IRSimilarity irswac= new IRSimilarity("$SOPA_HOME/indexes/ukwac"); </code> 
-cuidando reemplazar <code>$SOPA_HOME</code> por la ruta absoluta de la instalación de SOPA.+cuidando reemplazar ''$SOPA_HOME'' por la ruta absoluta de la instalación de SOPA.
  
 Y recompilar. Y recompilar.
Ligne 175: Ligne 179:
  
 Y para ejecuarlo escoger alguno de los archivos de frases en el sistema de pruebas Y para ejecuarlo escoger alguno de los archivos de frases en el sistema de pruebas
 +<code>
  java -Xmx2048m -Dfile.encoding=UTF-8 -classpath bin:lib/* fr.lipn.sts.SemanticComparer -f \  java -Xmx2048m -Dfile.encoding=UTF-8 -classpath bin:lib/* fr.lipn.sts.SemanticComparer -f \
  ../SemEval/testbed/data/2014/train/STS.2012.train.input.MSRpar.txt  ../SemEval/testbed/data/2014/train/STS.2012.train.input.MSRpar.txt
- +</code> 
-<div id="training">En modo de entrenamiento, hay que agregar la opción <code>-g</code> y el nombre del archivo .gs de referencia (o //gold standard//): </div> +<div id="training">En modo de entrenamiento, hay que agregar la opción ''-g'' y el nombre del archivo .gs de referencia (o //gold standard//): </div> 
 +<code>
  $ java -Xmx2048m -Dfile.encoding=UTF-8 -classpath bin:lib/* fr.lipn.sts.SemanticComparer -f \  $ java -Xmx2048m -Dfile.encoding=UTF-8 -classpath bin:lib/* fr.lipn.sts.SemanticComparer -f \
  ../SemEval/english_testbed/data/2014/train/STS.2012.train.input.MSRpar.txt -g \  ../SemEval/english_testbed/data/2014/train/STS.2012.train.input.MSRpar.txt -g \
  ../SemEval/english_testbed/data/2014/train/STS.2012.train.gs.MSRpar.txt  ../SemEval/english_testbed/data/2014/train/STS.2012.train.gs.MSRpar.txt
 +</code>
 ===== Interpretar la salida de SOPA ===== ===== Interpretar la salida de SOPA =====
 Cada línea del archivo típico de salida de SOPA corresponde a un par de frases del archivo de entrada. El par es analizado de acuerdo a un conjunto de dieciséis descriptores estructurales. He aquí un ejemplo de una línea típica del archivo de salida de SOPA Cada línea del archivo típico de salida de SOPA corresponde a un par de frases del archivo de entrada. El par es analizado de acuerdo a un conjunto de dieciséis descriptores estructurales. He aquí un ejemplo de una línea típica del archivo de salida de SOPA
 +<code>
  0.0 1:0.5799918669836017 2:0.7647590041160583 3:0.721046374948145 4:0.6666666269302368  0.0 1:0.5799918669836017 2:0.7647590041160583 3:0.721046374948145 4:0.6666666269302368
  5:0.7165572664608884 6:0.6992204407643969 7:0.41701820964924186 8:0.7253049656792512  5:0.7165572664608884 6:0.6992204407643969 7:0.41701820964924186 8:0.7253049656792512
  9:1.0 10:0.40990165297573933 11:0.60801467567322 12:0.7913405726936663  9:1.0 10:0.40990165297573933 11:0.60801467567322 12:0.7913405726936663
  13:0.4127906976744186 14:0.5862069129943848 15:0.509259259259 16:41.0  13:0.4127906976744186 14:0.5862069129943848 15:0.509259259259 16:41.0
 +</code>
  
 El formato NN:FFFFFF se interpreta como //descriptor NN con un valor igual a FFFFFF// (El descriptor 0.00 es despreciable). La versión 2015 de SOPA contiene dieciséis descriptores (o si se prefiere //features//). He aquí la descripción: El formato NN:FFFFFF se interpreta como //descriptor NN con un valor igual a FFFFFF// (El descriptor 0.00 es despreciable). La versión 2015 de SOPA contiene dieciséis descriptores (o si se prefiere //features//). He aquí la descripción:
Ligne 210: Ligne 216:
   - Similaridad por tamaño de frase   - Similaridad por tamaño de frase
  
-Si SOPA fue ejecutado con la [[Diario_de_instalación_de_SOPA#training|opción -g de entrenamiento]] cada línea del archivo de salida va precedida por el //gold standard// o valor de referencia de la anotación humana para el par de frases en cuestión.+Si SOPA fue ejecutado con la opción ''-g'' de entrenamiento cada línea del archivo de salida va precedida por el //gold standard// o valor de referencia de la anotación humana para el par de frases en cuestión. 
 +<code>
  4.000 1:0.5799918669836017 2:0.7647590041160583 3:0.721046374948145 4:0.6666666269302368  4.000 1:0.5799918669836017 2:0.7647590041160583 3:0.721046374948145 4:0.6666666269302368
  5:0.7165572664608884 6:0.6992204407643969 7:0.41701820964924186 8:0.7253049656792512  5:0.7165572664608884 6:0.6992204407643969 7:0.41701820964924186 8:0.7253049656792512
  9:1.0 10:0.40990165297573933 11:0.60801467567322 12:0.7913405726936663 13:0.4127906976744186  9:1.0 10:0.40990165297573933 11:0.60801467567322 12:0.7913405726936663 13:0.4127906976744186
  14:0.5862069129943848 15:0.509259259259 16:41.0  14:0.5862069129943848 15:0.509259259259 16:41.0
 +</code>
  • Dernière modification: il y a 5 ans