equipes:rcln:ancien_wiki:projets:semeval:2015

SemEval 2015

Similaridad Semántica Textual (Semantic Textual Similarity, STS)

  • Davide Buscaldi
  • Jorge GarcIa Flores
  • Nadi Tomeh
  • Joseph Le Roux
  • Iván Vladimir Meza
  • José Manuel Snyder
  • Ismael Atzallaca Servin
  • Isaac Rodríguez
  • Belem Priego

Dadas dos oraciones, s1 y s2, los sistemas participantes en la tarea deben calcular qué tan similares son s1 y s2 regresando un ‘score’(puntuación) de similaridad y opcionalmente un ‘score’ de confianza.

Para español la escala va de 0 a 4.

  • Significan lo mismo (4)

    El pájaro se esta bañando en el lavabo.
    El pájaro se está lavando en el aguamanil.

  • Casi significan lo mismo, pero detalles sin importancia difieren (3)

    John dijo que él es considerado como testigo, y no como sospechoso.
    “Él ya no es un sospechoso,” John dijo.

  • Casi significan lo mismo, pero detalles importantes tema (2)

    Ellos volaron del nido en grupos.
    Volaron hacia el nido juntos.

  • No son equivalentes pero son en el mismo tópico (1)

    La mujer está tocando el violín.
    La joven disfruta escuchar la guitarra.

  • Las dos oraciones son de temas diferentes (0)

    Al amanecer, Juan se fue a montar a caballo con un grupo de amigos.
    La salida del sol al amanecer es una magnífica vista que puede presenciar si usted se despierta lo suficientemente temprano para verla.

La escala para el score en inglés es la siguiente de 0 a 5:

  • Significan lo mismo (5)

    The bird is bathing in the sink.
    Birdie is washing itself in the water basin.

  • Casi significan lo mismo, pero detalles sin importancia difieren (4)

    In May 2010, the troops attempted to invade Kabul.
    The US army invaded Kabul on May 7th last year, 2010.

  • Casi significan lo mismo, pero detalles importantes difieren (3)

    John said he is considered a witness but not a suspect.
    “He is not a suspect anymore.” John said.

  • No son equivalente pero comparten informaciòn (2)

    They flew out of the nest in groups.
    They flew into the nest together.

  • No son equivalentes pero son en el mismo tema (1)

    The woman is playing the violin.
    The young lady enjoys listening to the guitar.

  • Las dos oraciones son en temas diferentes (0)

    John went horse back riding at dawn with a whole group of friends.
    Sunrise at dawn is a magnificent view to take in if you wake up early enough for it.

    Para determinar el desempeño del sistema se usa la correlación media de Pearson (existe un código que hace la evaluación)

  • Para inglés no se puede usar Ontonotes y datos del artículo escrito por Guo et al., 2013
  • Para español no se puede usar información de la wikipedia Formato de los archivos
  • 5 de diciembre 2014, comienza la evaluación
  • 20 de diciembre 2014, termina la evaluación
  • 30 de enero 2015, artículo
  • 28 de febrero 2015, revisiones
  • 30 de marzo 2015, versiòn final de artículo
  • Verano 2015, taller

Por línea, hay dos oraciones separadas por un tabulador

A man with a bottle is petting a brown horse.        Man petting horse over fence.
A white cat rests it head on a stone.        A striped cat looking lazily through vertical blinds.
An English-themed furniture set.        A large steam locomotive pulling a passenger train through the countryside.
An airplane sitting on the tarmac at an airport with another plane in the background.         White and green commercial airliner taking off of runway.
The udders of a dairy cow that is standing in a pasture near a large building.        A cows ass and some buildings

En este archivo cada línea corresponde a un score por cada par de oraciones del archivo de ejemplos. Este score representa el promedio del valor asignado por humanos. Calcular este score es que buscamos capturar.

3.5349
3.6924
0.5730
3.2319
1.2929

Por línea de ejemplo un nùmero real entre 0 y 4 (0 a 5 para inglés), seguido de un nivel de confianza entre 0 y 100. Este archivo es el que generamos y enviamos a la organización.

1.5782        39.4795
3.7368        16.1379
0.5002        10.8984
3.0136        62.2158
4.1593        29.9327

Inglés 2014

Español 2014

Scientific

  1. Adapt the Semeval 2013 and 2014 system on the lipn-rcln server (Jorge, Iván, Davide and students).
  2. Implement Sultan's monolingual alignment algorithm (2014 winning system) at IIMAS.
  • Dernière modification: il y a 3 ans