equipes:rcln:ancien_wiki:projets:semeval:2015

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentes Révision précédente
Prochaine révision
Révision précédente
equipes:rcln:ancien_wiki:projets:semeval:2015 [2019/04/08 14:31]
rosse
equipes:rcln:ancien_wiki:projets:semeval:2015 [2020/11/23 18:42] (Version actuelle)
garciaflores ↷ Liens modifiés en raison d'un déplacement.
Ligne 1: Ligne 1:
 ====== SemEval 2015 ====== ====== SemEval 2015 ======
  
-  *  Lien à SemEval-2012 task 6[[http://www.cs.york.ac.uk/semeval-2012/task6/]] +=====  La tarea: STS  =====
-  *  Lien à SemEval-2013 STS: [[http://ixa2.si.ehu.es/sts/]] +
-  *  Lien à SemEval-2014: [[http://alt.qcri.org/semeval2014/]]+
  
-Données 2012+Similaridad Semántica Textual (Semantic Textual Similarity, STS) 
-  *  [[https://git.lipn.univ-paris13.fr/semeval/master/tree/SemEval2012/taskData|Train + Test]] + 
-Données 2013+=====  Miembros  ===== 
-  *  [[https://git.lipn.univ-paris13.fr/semeval/master/tree/SemEval2013/test-core.tgz|Test]] +====  LIPN  ==== 
-  *  [[https://git.lipn.univ-paris13.fr/semeval/master/tree/SemEval2013/gs-core.tgz|Gold Standard]]+  *  Davide Buscaldi 
 +  *  Jorge GarcIa Flores 
 +  *  Nadi Tomeh 
 +  *  Joseph Le Roux 
 + 
 +====  IIMAS  ==== 
 +  *  Iván Vladimir Meza 
 +  *  José Manuel Snyder 
 +  *  Ismael Atzallaca Servin 
 +  *  Isaac Rodríguez 
 + 
 +====  LDI  ==== 
 +  *  Belem Priego 
 + 
 +=====  Definición de la tarea  ===== 
 + 
 +Dadas dos oraciones, s1 y s2, los sistemas participantes en la tarea deben calcular qué tan similares son s1 y s2 regresando un ‘score’(puntuación) de similaridad y opcionalmente un ‘score’ de confianza. 
 + 
 +====  Ejemplos español  ==== 
 + 
 +Para español la escala va de 0 a 4. 
 + 
 +  * Significan lo mismo **(4)** 
 +<blockquote> 
 +//El pájaro se esta bañando en el lavabo.//\\  
 +//El pájaro se está lavando en el aguamanil.// 
 +</blockquote> 
 +  * Casi significan lo mismo, pero detalles sin importancia difieren **(3)** 
 +<blockquote> 
 +//John dijo que él es considerado como testigo, y no como sospechoso.//\\  
 +//"Él ya no es un sospechoso," John dijo.// 
 +</blockquote> 
 +  * Casi significan lo mismo, pero detalles importantes tema **(2)** 
 +<blockquote> 
 +//Ellos volaron del nido en grupos.//\\  
 +//Volaron hacia el nido juntos.// 
 +</blockquote> 
 +  * No son equivalentes pero son en el mismo tópico **(1)** 
 +<blockquote> 
 +//La mujer está tocando el violín.//\\  
 +//La joven disfruta escuchar la guitarra.// 
 +</blockquote> 
 +  * Las dos oraciones son de temas diferentes **(0)** 
 +<blockquote> 
 +//Al amanecer, Juan se fue a montar a caballo con un grupo de amigos.//\\  
 +//La salida del sol al amanecer es una magnífica vista que puede presenciar si usted se despierta lo suficientemente temprano para verla.// 
 +</blockquote> 
 + 
 +====  Ejemplos inglés  ==== 
 + 
 +La escala para el score en inglés es la siguiente de 0 a 5: 
 + 
 +  *  Significan lo mismo **(5)** 
 +<blockquote> 
 +//The bird is bathing in the sink.//\\  
 +//Birdie is washing itself in the water basin.// 
 +</blockquote> 
 +  *  Casi significan lo mismo, pero detalles sin importancia difieren **(4)** 
 +<blockquote> 
 +//In May 2010, the troops attempted to invade Kabul.//\\  
 +//The US army invaded Kabul on May 7th last year, 2010.// 
 +</blockquote> 
 +  *  Casi significan lo mismo, pero detalles importantes difieren **(3)** 
 +<blockquote> 
 +//John said he is considered a witness but not a suspect.//\\  
 +//"He is not a suspect anymore." John said.// 
 +</blockquote> 
 +  *  No son equivalente pero comparten informaciòn **(2)** 
 +<blockquote> 
 +//They flew out of the nest in groups.//\\  
 +//They flew into the nest together.// 
 +</blockquote> 
 +  *  No son equivalentes pero son en el mismo tema **(1)** 
 +<blockquote> 
 +//The woman is playing the violin.//\\  
 +//The young lady enjoys listening to the guitar.// 
 +</blockquote> 
 +  *  Las dos oraciones son en temas diferentes **(0)** 
 +<blockquote> 
 +//John went horse back riding at dawn with a whole group of friends.//\\  
 +//Sunrise at dawn is a magnificent view to take in if you wake up early enough for it.// 
 +</blockquote> 
 +Para determinar el desempeño del sistema se usa la correlación media de Pearson (existe un código que hace la evaluación) 
 + 
 +====  Restricciones  ==== 
 + 
 +  *  Para inglés no se puede usar Ontonotes y datos del artículo escrito por Guo et al., 2013 
 +  *  Para español no se puede usar información de la wikipedia 
 +Formato de los archivos 
 + 
 +=====  Fechas importantes  ===== 
 + 
 +  *  5 de diciembre 2014, comienza la evaluación 
 +  *  20 de diciembre 2014, termina la evaluación 
 +  *  30 de enero 2015, artículo 
 +  *  28 de febrero 2015, revisiones 
 +  *  30 de marzo 2015, versiòn final de artículo 
 +  *  Verano 2015, taller 
 + 
 +=====  Links importantes  ===== 
 + 
 +  *  [[http://alt.qcri.org/semeval2015/task2/|Página principal]] 
 +  *  [[http://ixa2.si.ehu.es/stswiki/index.php/Main_Page|Wiki STS]] 
 +  *  [[http://ixa2.si.ehu.es/stswiki/index.php/Main_Page|Datos entrenamiento]] 
 +  *  [[http://alt.qcri.org/semeval2014/cdrom/pdf/SemEval010.pdf|Artículo descriptivo de la tarea: SemEval-2014 Task 10: Multilingual Semantic Textual Similarity]] 
 + 
 +====  Referencias sobre NLP  ==== 
 + 
 +  *  [[http://www.nltk.org/book/]] El libro de NLTK una libreria para PNL (pero habla de aspectos generales PLN) 
 +  *  [[http://www.nltk.org/]] La documentación de librería 
 +  *  [[http://www.amazon.com/Speech-Language-Processing-Daniel-Jurafsky/dp/0131873210/ref=la_B001IQXPIO_1_2?s=books&ie=UTF8&qid=1413315355&sr=1-2]] Libro sobre procesamiento de lenguaje natural (accesible en varias bibliotecas) 
 + 
 +=====  Formato de archivos   ===== 
 + 
 +====  Archivos con ejemplos/problemas  ==== 
 + 
 +Por línea, hay dos oraciones separadas por un tabulador 
 +<code> 
 +A man with a bottle is petting a brown horse.        Man petting horse over fence. 
 +A white cat rests it head on a stone.        A striped cat looking lazily through vertical blinds. 
 +An English-themed furniture set.        A large steam locomotive pulling a passenger train through the countryside. 
 +An airplane sitting on the tarmac at an airport with another plane in the background.         White and green commercial airliner taking off of runway. 
 +The udders of a dairy cow that is standing in a pasture near a large building.        A cows ass and some buildings 
 +</code> 
 + 
 +====  Archivo de referencia   ==== 
 + 
 +En este archivo cada línea corresponde a un score por cada par de oraciones del archivo de ejemplos. Este score representa el promedio del valor asignado por humanos. Calcular este score es que buscamos capturar. 
 + 
 +<code>3.5349 
 +3.6924 
 +0.5730 
 +3.2319 
 +1.2929 
 +</code> 
 + 
 +====  Archivo de resultados  === 
 + 
 +Por línea de ejemplo un nùmero real entre 0 y 4 (0 a 5 para inglés), seguido de un nivel de confianza entre 0 y 100. Este archivo es el que generamos y enviamos a la organización. 
 + 
 +<code>1.5782        39.4795 
 +3.7368        16.1379 
 +0.5002        10.8984 
 +3.0136        62.2158 
 +4.1593        29.9327 
 +</code> 
 + 
 + 
 +====  Datos de la competencia  ==== 
 + 
 + 
 +===  Inglés 2014  === 
 + 
 +  *  [[http://alt.qcri.org/semeval2014/task10/data/uploads/sts-en-gs-2014.zip|Archivos de frases y referencia]] 
 +   [[http://alt.qcri.org/semeval2014/task10/data/uploads/task10-en.zip|Archivos de resultados]] 
 + 
 +===  Español 2014  === 
 + 
 +  *  [[http://alt.qcri.org/semeval2014/task10/data/uploads/sts-es-test.2014.tar.gz|Archivos de ejemplos]] 
 +  *  [[http://alt.qcri.org/semeval2014/task10/data/uploads/sts-es-gs-2013.zip|Archivos de referencia]] 
 +  *  Archivos de resultados (No resultados) 
 + 
 +=====  Metodologías propuestas  ===== 
 + 
 +  -  Spectral similarity - LIPN 
 +    *  [[http://alt.qcri.org/semeval2014/cdrom/pdf/SemEval069.pdf|Sistema funcional 2014]] 
 +    *  [[https://github.com/dbuscaldi/SemEval/tree/2014/ProxyCKPD|Código github Original]] 
 +    *  [[https://github.com/rcln/SemEval|Código github reciente más sistema y datos de evaluación]] 
 +   Alineación/Replicar sistema - IIMAS 
 +    *  [[http://www.transacl.org/wp-content/uploads/2014/05/53.pdf|Articulo de alineación]] 
 +     [[http://alt.qcri.org/semeval2014/cdrom/pdf/SemEval039.pdf|Articulo de sistema con buen desempeño 2014]] 
 +    *  [[https://github.com/ma-sultan/monolingual-word-aligner|Código github]] 
 +  -  Sparse decoding - IIMAS 
 +    *  [[http://research.microsoft.com/pubs/132810/PAMI-Face.pdf|Artículo original]] 
 +    *  [[http://ceur-ws.org/Vol-1180/CLEF2014wn-Pan-MayorEt2014.pdf|Modificaciones para texto en tarea de identificacion de autor]] 
 +    *  [[https://github.com/ivanvladimir/authorid|Código github (identificación de autor)]] 
 + 
 +=====  Instalar y correr SOPA  ===== 
 +  *  [[equipes:rcln:ancien_wiki:projets:semeval:instalacion_sopa]] 
 + 
 +=====  Reuniones  ===== 
 + 
 +  -  [[equipes:rcln:ancien_wiki:projets:semeval:reunion_14_octubre_2014]] 
 + 
 +=====  Videos  ===== 
 + 
 +=====  Sección en inglés  ===== 
 +====  Task preparation (TODO)  ==== 
 +===  Scientific === 
 +  -  Adapt the [[http://research.microsoft.com/pubs/132810/PAMI-Face.pdf Sparse-R algorithm for face similarity to text (Iván) 
 +  -  Study the results in 2015: check correlation between (global and feature) scores and the gold standard score, find sentences that have low correlation and understand why 
 +  -  Perform error analysis of 2014 data (Davide) 
 + 
 +=== Technical === 
 +  -  Finish the Semeval testing platform where you can run test on any of the STS Semeval historical datasets and where you can train on past Semeval data and test on current data (Jorge). Actually, Iván proposes that we take Semeval 2014 as our only training corpus and every other Semeval as a testbed. 
 +  -  Install, configure and run Davide's [[https://github.com/dbuscaldi/SemEval/tree/master/ProxyCKPD|Semeval 2013 and 2014]] system on the lipn-rcln server (Jorge, Iván, Davide and students). 
 +  -  Implement [[http://www.transacl.org/wp-content/uploads/2014/05/53.pdf|Sultan's monolingual alignment algorithm]] (2014 winning system)  at IIMAS. 
 + 
 + 
 +====  Tarea alternativa ¿?   ==== 
 +  *  [[http://alt.qcri.org/semeval2015/task1/|Task 2: Paraphrase and Semantic Similarity in Twitter]] 
 + 
 +====  Meetings  ==== 
 +  *  [[equipes:rcln:ancien_wiki:projets:semeval:reunion_12_september_2014|September 12, 2014 (hangout)]] 
 +  *  [[October|2, 2014 (hangout)]] 
 +===== Semeval 2015 conference ===== 
 +  * [[equipes:rcln:ancien_wiki:projets:semeval:notes_conference_2015]]
  
  • Dernière modification: il y a 4 ans