Prochaine révision
|
Révision précédente
|
equipes:rcln:ancien_wiki:projets:semeval:instalacion_sopa [2019/04/08 14:47] rosse créée |
equipes:rcln:ancien_wiki:projets:semeval:instalacion_sopa [2020/11/23 18:41] (Version actuelle) garciaflores ↷ Page déplacée de equipes:rcln:projets:semeval:instalacion_sopa à equipes:rcln:ancien_wiki:projets:semeval:instalacion_sopa |
| ====== Diario de instalación de SOPA ====== |
| |
===== Instrucciones para instalar SOPA ===== | ===== Instrucciones para instalar SOPA ===== |
| |
<code>git clone https://github.com/dbuscaldi/SOPA</code> | <code>git clone https://github.com/dbuscaldi/SOPA</code> |
| |
Este es el directorio base de SOPA (o <code>$SOPA_HOME</code>) | Este es el directorio base de SOPA (o ''$SOPA_HOME'') |
| |
==== Instalar software externo (sugerencia pornerlo dentro del directorio de SOPA) ==== | ==== Instalar software externo (sugerencia pornerlo dentro del directorio de SOPA) ==== |
| |
Descargar (de la máquina de Davide o de la de Iván) el archivo | Descargar (de la máquina de Davide o de la de Iván) el archivo |
IRindexes.sopa.semeval.clean.tar.gz (? Gb; md5sum=?) | <code> IRindexes.sopa.semeval.clean.tar.gz (? Gb; md5sum=?)</code> |
Este archivo contiene los siguientes recursos: | Este archivo contiene los siguientes recursos: |
| |
* <code>$SOPA_HOME/indexes/EFE_UN_indexed (2.4 Gb)</code> | * <code>$SOPA_HOME/indexes/EFE_UN_indexed (2.4 Gb)</code> |
| |
Descomprimirlos en <code>$SOPA_HOME</code> | Descomprimirlos en ''$SOPA_HOME'' |
$ tar xzvf IRindexes.sopa.semeval.clean.tar.gz . | <code> $ tar xzvf IRindexes.sopa.semeval.clean.tar.gz .</code> |
| |
==== Compilar el código ==== | ==== Compilar el código ==== |
</code> | </code> |
| |
Además hay que remplazar la línea 107 de <code>corenlp.py</code>, por la siguiente: | Además hay que remplazar la línea 107 de ''corenlp.py'', por la siguiente: |
<code> | <code> |
rel, left, right = split_entry | rel, left, right = split_entry |
=== TestCoreNLP === | === TestCoreNLP === |
| |
La herramienta de prueba, por el momento tiene un error y hay que agregar la siguiente línea en el archivo <code>$SOPA_HOME/src/fr/lipn/sts/TestCoreNLP.java</code>> | La herramienta de prueba, por el momento tiene un error y hay que agregar la siguiente línea en el archivo ''$SOPA_HOME/src/fr/lipn/sts/TestCoreNLP.java'': |
| |
GoogleTFFactory.init(SOPAConfiguration.GoogleTF); | <code> GoogleTFFactory.init(SOPAConfiguration.GoogleTF);</code> |
| |
Una opción es: | Una opción es: |
| <code> |
GoogleTFFactory.init(SOPAConfiguration.GoogleTF); | GoogleTFFactory.init(SOPAConfiguration.GoogleTF); |
StanfordCoreNLP pipeline = new StanfordCoreNLP(props); | StanfordCoreNLP pipeline = new StanfordCoreNLP(props); |
| </code> |
| |
Despues recompilar, y ejecutar | Despues recompilar, y ejecutar |
=== UkWaCIndexer === | === UkWaCIndexer === |
| |
Cambiar las líneas 22 y 23 del archivo UkWaCIndexer.java en el directorio $SOPA_HOME/src/fr/lipn/sts/ir/indexing/ | Cambiar las líneas 22 y 23 del archivo UkWaCIndexer.java en el directorio ''$SOPA_HOME/src/fr/lipn/sts/ir/indexing/'' |
| <code> |
String filename="/media/expT1/corpora/WaCky/en/ukwac/cleaned_pre.pos.corpus"; | String filename="/media/expT1/corpora/WaCky/en/ukwac/cleaned_pre.pos.corpus"; |
String dest="/media/expT1/index/ukwac"; | String dest="/media/expT1/index/ukwac"; |
| </code> |
| |
Sustituir por: | Sustituir por: |
| <code> |
String filename="$SOPA_HOME/indexes/ukwac/cleaned_pre.pos.corpus"; | String filename="$SOPA_HOME/indexes/ukwac/cleaned_pre.pos.corpus"; |
String dest="$SOPA_HOME/indexes/ukwac"; | String dest="$SOPA_HOME/indexes/ukwac"; |
| </code> |
| |
**OJO:** hay que reemplazar $SOPA_HOME por la ruta absoluta en donde está instalada SOPA | **OJO:** hay que reemplazar $SOPA_HOME por la ruta absoluta en donde está instalada SOPA |
=== SemanticComparer === | === SemanticComparer === |
| |
* Cambiar la línea 114 en <code>$SOPA_HOME/src/fr/lipn/sts/SemanticComparer.java </code> | * Cambiar la línea 114 en ''$SOPA_HOME/src/fr/lipn/sts/SemanticComparer.java '' |
<code> props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, sentiment, parse");</code> | <code> props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, sentiment, parse");</code> |
por | por |
<code> props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, parse, sentiment");</code> | <code> props.setProperty("annotators", "tokenize, ssplit, pos, lemma, ner, parse, sentiment");</code> |
| |
* Cambiar también la línea 174 del mismo <code>SemanticComparer.java</code> | * Cambiar también la línea 174 del mismo ''SemanticComparer.java'' |
| |
Reemplazar | Reemplazar |
IRSimilarity irswac= new IRSimilarity("/media/expT1/index/ukwac"); | <code> IRSimilarity irswac= new IRSimilarity("/media/expT1/index/ukwac");</code> |
por | por |
IRSimilarity irswac= new IRSimilarity("$SOPA_HOME/indexes/ukwac"); | <code> IRSimilarity irswac= new IRSimilarity("$SOPA_HOME/indexes/ukwac"); </code> |
cuidando reemplazar <code>$SOPA_HOME</code> por la ruta absoluta de la instalación de SOPA. | cuidando reemplazar ''$SOPA_HOME'' por la ruta absoluta de la instalación de SOPA. |
| |
Y recompilar. | Y recompilar. |
| |
Y para ejecuarlo escoger alguno de los archivos de frases en el sistema de pruebas | Y para ejecuarlo escoger alguno de los archivos de frases en el sistema de pruebas |
| <code> |
java -Xmx2048m -Dfile.encoding=UTF-8 -classpath bin:lib/* fr.lipn.sts.SemanticComparer -f \ | java -Xmx2048m -Dfile.encoding=UTF-8 -classpath bin:lib/* fr.lipn.sts.SemanticComparer -f \ |
../SemEval/testbed/data/2014/train/STS.2012.train.input.MSRpar.txt | ../SemEval/testbed/data/2014/train/STS.2012.train.input.MSRpar.txt |
| </code> |
<div id="training">En modo de entrenamiento, hay que agregar la opción <code>-g</code> y el nombre del archivo .gs de referencia (o //gold standard//): </div> | <div id="training">En modo de entrenamiento, hay que agregar la opción ''-g'' y el nombre del archivo .gs de referencia (o //gold standard//): </div> |
| <code> |
$ java -Xmx2048m -Dfile.encoding=UTF-8 -classpath bin:lib/* fr.lipn.sts.SemanticComparer -f \ | $ java -Xmx2048m -Dfile.encoding=UTF-8 -classpath bin:lib/* fr.lipn.sts.SemanticComparer -f \ |
../SemEval/english_testbed/data/2014/train/STS.2012.train.input.MSRpar.txt -g \ | ../SemEval/english_testbed/data/2014/train/STS.2012.train.input.MSRpar.txt -g \ |
../SemEval/english_testbed/data/2014/train/STS.2012.train.gs.MSRpar.txt | ../SemEval/english_testbed/data/2014/train/STS.2012.train.gs.MSRpar.txt |
| </code> |
===== Interpretar la salida de SOPA ===== | ===== Interpretar la salida de SOPA ===== |
Cada línea del archivo típico de salida de SOPA corresponde a un par de frases del archivo de entrada. El par es analizado de acuerdo a un conjunto de dieciséis descriptores estructurales. He aquí un ejemplo de una línea típica del archivo de salida de SOPA | Cada línea del archivo típico de salida de SOPA corresponde a un par de frases del archivo de entrada. El par es analizado de acuerdo a un conjunto de dieciséis descriptores estructurales. He aquí un ejemplo de una línea típica del archivo de salida de SOPA |
| <code> |
0.0 1:0.5799918669836017 2:0.7647590041160583 3:0.721046374948145 4:0.6666666269302368 | 0.0 1:0.5799918669836017 2:0.7647590041160583 3:0.721046374948145 4:0.6666666269302368 |
5:0.7165572664608884 6:0.6992204407643969 7:0.41701820964924186 8:0.7253049656792512 | 5:0.7165572664608884 6:0.6992204407643969 7:0.41701820964924186 8:0.7253049656792512 |
9:1.0 10:0.40990165297573933 11:0.60801467567322 12:0.7913405726936663 | 9:1.0 10:0.40990165297573933 11:0.60801467567322 12:0.7913405726936663 |
13:0.4127906976744186 14:0.5862069129943848 15:0.509259259259 16:41.0 | 13:0.4127906976744186 14:0.5862069129943848 15:0.509259259259 16:41.0 |
| </code> |
| |
El formato NN:FFFFFF se interpreta como //descriptor NN con un valor igual a FFFFFF// (El descriptor 0.00 es despreciable). La versión 2015 de SOPA contiene dieciséis descriptores (o si se prefiere //features//). He aquí la descripción: | El formato NN:FFFFFF se interpreta como //descriptor NN con un valor igual a FFFFFF// (El descriptor 0.00 es despreciable). La versión 2015 de SOPA contiene dieciséis descriptores (o si se prefiere //features//). He aquí la descripción: |
- Similaridad por tamaño de frase | - Similaridad por tamaño de frase |
| |
Si SOPA fue ejecutado con la [[Diario_de_instalación_de_SOPA#training|opción -g de entrenamiento]] cada línea del archivo de salida va precedida por el //gold standard// o valor de referencia de la anotación humana para el par de frases en cuestión. | Si SOPA fue ejecutado con la opción ''-g'' de entrenamiento cada línea del archivo de salida va precedida por el //gold standard// o valor de referencia de la anotación humana para el par de frases en cuestión. |
| <code> |
4.000 1:0.5799918669836017 2:0.7647590041160583 3:0.721046374948145 4:0.6666666269302368 | 4.000 1:0.5799918669836017 2:0.7647590041160583 3:0.721046374948145 4:0.6666666269302368 |
5:0.7165572664608884 6:0.6992204407643969 7:0.41701820964924186 8:0.7253049656792512 | 5:0.7165572664608884 6:0.6992204407643969 7:0.41701820964924186 8:0.7253049656792512 |
9:1.0 10:0.40990165297573933 11:0.60801467567322 12:0.7913405726936663 13:0.4127906976744186 | 9:1.0 10:0.40990165297573933 11:0.60801467567322 12:0.7913405726936663 13:0.4127906976744186 |
14:0.5862069129943848 15:0.509259259259 16:41.0 | 14:0.5862069129943848 15:0.509259259259 16:41.0 |
| </code> |