Similaridad Semántica Textual (Semantic Textual Similarity, STS)
Dadas dos oraciones, s1 y s2, los sistemas participantes en la tarea deben calcular qué tan similares son s1 y s2 regresando un ‘score’(puntuación) de similaridad y opcionalmente un ‘score’ de confianza.
Para español la escala va de 0 a 4.
El pájaro se esta bañando en el lavabo.
El pájaro se está lavando en el aguamanil.
John dijo que él es considerado como testigo, y no como sospechoso.
“Él ya no es un sospechoso,” John dijo.
Ellos volaron del nido en grupos.
Volaron hacia el nido juntos.
La mujer está tocando el violín.
La joven disfruta escuchar la guitarra.
Al amanecer, Juan se fue a montar a caballo con un grupo de amigos.
La salida del sol al amanecer es una magnífica vista que puede presenciar si usted se despierta lo suficientemente temprano para verla.
La escala para el score en inglés es la siguiente de 0 a 5:
The bird is bathing in the sink.
Birdie is washing itself in the water basin.
In May 2010, the troops attempted to invade Kabul.
The US army invaded Kabul on May 7th last year, 2010.
John said he is considered a witness but not a suspect.
“He is not a suspect anymore.” John said.
They flew out of the nest in groups.
They flew into the nest together.
The woman is playing the violin.
The young lady enjoys listening to the guitar.
John went horse back riding at dawn with a whole group of friends.
Sunrise at dawn is a magnificent view to take in if you wake up early enough for it.
Para determinar el desempeño del sistema se usa la correlación media de Pearson (existe un código que hace la evaluación)
Por línea, hay dos oraciones separadas por un tabulador
A man with a bottle is petting a brown horse. Man petting horse over fence. A white cat rests it head on a stone. A striped cat looking lazily through vertical blinds. An English-themed furniture set. A large steam locomotive pulling a passenger train through the countryside. An airplane sitting on the tarmac at an airport with another plane in the background. White and green commercial airliner taking off of runway. The udders of a dairy cow that is standing in a pasture near a large building. A cows ass and some buildings
En este archivo cada línea corresponde a un score por cada par de oraciones del archivo de ejemplos. Este score representa el promedio del valor asignado por humanos. Calcular este score es que buscamos capturar.
3.5349 3.6924 0.5730 3.2319 1.2929
Por línea de ejemplo un nùmero real entre 0 y 4 (0 a 5 para inglés), seguido de un nivel de confianza entre 0 y 100. Este archivo es el que generamos y enviamos a la organización.
1.5782 39.4795 3.7368 16.1379 0.5002 10.8984 3.0136 62.2158 4.1593 29.9327