Semeval 2015

De wikiRcln
Aller à : navigation, rechercher

La tarea: STS

Similaridad Semántica Textual (Semantic Textual Similarity, STS)

Miembros

LIPN

  • Davide Buscaldi
  • Jorge GarcIa Flores
  • Nadi Tomeh
  • Joseph Le Roux

IIMAS

  • Iván Vladimir Meza
  • José Manuel Snyder
  • Ismael Atzallaca Servin
  • Isaac Rodríguez

LDI

  • Belem Priego

Definición de la tarea

Dadas dos oraciones, s1 y s2, los sistemas participantes en la tarea deben calcular qué tan similares son s1 y s2 regresando un ‘score’(puntuación) de similaridad y opcionalmente un ‘score’ de confianza.

Ejemplos español

Para español la escala va de 0 a 4.

  • Significan lo mismo (4)
 El pájaro se esta bañando en el lavabo.
 El pájaro se está lavando en el aguamanil.        
  • Casi significan lo mismo, pero detalles sin importancia difieren (3)
 John dijo que él es considerado como testigo, y no como sospechoso.
 "Él ya no es un sospechoso," John dijo.
  • Casi significan lo mismo, pero detalles importantes tema (2)
 Ellos volaron del nido en grupos.
 Volaron hacia el nido juntos.
  • No son equivalentes pero son en el mismo tópico (1)
 La mujer está tocando el violín.
 La joven disfruta escuchar la guitarra.
  • Las dos oraciones son de temas diferentes (0)
 Al amanecer, Juan se fue a montar a caballo con un grupo de amigos.
 La salida del sol al amanecer es una magnífica vista que puede presenciar si usted se despierta lo suficientemente temprano para verla.

Ejemplos inglés

La escala para el score en inglés es la siguiente de 0 a 5:

  • Significan lo mismo (5)
 The bird is bathing in the sink.
 Birdie is washing itself in the water basin.
  • Casi significan lo mismo, pero detalles sin importancia difieren (4)
 In May 2010, the troops attempted to invade Kabul.
 The US army invaded Kabul on May 7th last year, 2010.
  • Casi significan lo mismo, pero detalles importantes difieren (3)
 John said he is considered a witness but not a suspect.
 "He is not a suspect anymore." John said.
  • No son equivalente pero comparten informaciòn (2)
 They flew out of the nest in groups.
 They flew into the nest together.
  • No son equivalentes pero son en el mismo tema (1)
 The woman is playing the violin.
 The young lady enjoys listening to the guitar.
  • Las dos oraciones son en temas diferentes (0)
 John went horse back riding at dawn with a whole group of friends.
 Sunrise at dawn is a magnificent view to take in if you wake up early enough for it.

Para determinar el desempeño del sistema se usa la correlación media de Pearson (existe un código que hace la evaluación)

Restricciones

  • Para inglés no se puede usar Ontonotes y datos del artículo escrito por Guo et al., 2013
  • Para español no se puede usar información de la wikipedia

Formato de los archivos

Fechas importantes

  • 5 de diciembre 2014, comienza la evaluación
  • 20 de diciembre 2014, termina la evaluación
  • 30 de enero 2015, artículo
  • 28 de febrero 2015, revisiones
  • 30 de marzo 2015, versiòn final de artículo
  • Verano 2015, taller

Links importantes

Referencias sobre NLP

  • [1] El libro de NLTK una libreria para PNL (pero habla de aspectos generales PLN)
  • [2] La documentación de librería
  • [3] Libro sobre procesamiento de lenguaje natural (accesible en varias bibliotecas)

Formato de archivos

Archivos con ejemplos/problemas

Por línea, hay dos oraciones separadas por un tabulador

A man with a bottle is petting a brown horse.        Man petting horse over fence.
A white cat rests it head on a stone.        A striped cat looking lazily through vertical blinds.
An English-themed furniture set.        A large steam locomotive pulling a passenger train through the countryside.
An airplane sitting on the tarmac at an airport with another plane in the background.         White and green commercial airliner taking off of runway.
The udders of a dairy cow that is standing in a pasture near a large building.        A cows ass and some buildings 

Archivo de referencia

En este archivo cada línea corresponde a un score por cada par de oraciones del archivo de ejemplos. Este score representa el promedio del valor asignado por humanos. Calcular este score es que buscamos capturar.

3.5349
3.6924
0.5730
3.2319
1.2929

Archivo de resultados =

Por línea de ejemplo un nùmero real entre 0 y 4 (0 a 5 para inglés), seguido de un nivel de confianza entre 0 y 100. Este archivo es el que generamos y enviamos a la organización.

1.5782        39.4795
3.7368        16.1379
0.5002        10.8984
3.0136        62.2158
4.1593        29.9327


Datos de la competencia

Inglés 2014

Español 2014

Metodologías propuestas

  1. Spectral similarity - LIPN
  2. Alineación/Replicar sistema - IIMAS
  3. Sparse decoding - IIMAS

Instalar y correr SOPA

Reuniones

  1. Minuta de reunión semeval del 14 de octubre del 2014

Videos

Sección en inglés

Task preparation (TODO)

Scientific

  1. Adapt the [http://research.microsoft.com/pubs/132810/PAMI-Face.pdf Sparse-R algorithm for face similarity to text (Iván)
  2. Study the results in 2015: check correlation between (global and feature) scores and the gold standard score, find sentences that have low correlation and understand why
  3. Perform error analysis of 2014 data (Davide)

Technical

  1. Finish the Semeval testing platform where you can run test on any of the STS Semeval historical datasets and where you can train on past Semeval data and test on current data (Jorge). Actually, Iván proposes that we take Semeval 2014 as our only training corpus and every other Semeval as a testbed.
  2. Install, configure and run Davide's Semeval 2013 and 2014 system on the lipn-rcln server (Jorge, Iván, Davide and students).
  3. Implement Sultan's monolingual alignment algorithm (2014 winning system) at IIMAS.


Tarea alternativa ¿?

Meetings

Semeval 2015 conference