12 september 2014 (hangout)

Participants: Davide Buscaldi, Jorge García Flores, Iván Vladimir Meza

Davide habla sobre las posibles mejoras que le gustaría implementar en 2015
- Spectral similarity (básicamente es una comparación de distribuciones estadísticas de las coocurrencias de cada palabra (unigrama)
- ¿Por qué el criterio geográfico no funcionó?
- Skipgrams (software: Colibrí)
- La medida de IR: habíamos quedado de implementarla no sólo sobre un corpus de noticias, sino también sobre información proveniente del web
Nos preguntamos cómo combinar la experimentación con todas las medidas
¿Un servidor? ¿La máquina de Jorge en Villetaneuse?
Davide propone clasificar los distintos descriptores (features) entre las pesadas, es decir aquellas que requieren de recursos pesados (DBPedia, Wordnet, Lucene, Aquaint) y aquellas que se pueden correr con sólo tener el código en Github (ejemplo: Levenstein).
Estaría bien que para mediados de octubre tuviéramos un servidor en donde cada feature es un servicio al cual le damos los datos y nos entrega la medida de similaridad.
Hablamos también de las maneras de combinar las features: regresión, Sparse-R y alineación monolingüe de Sultan.
Iván habla sobre el proceso de replicado del run ganador (alineamiento monolingüe). Nos pregntamos si el alineamiento monolingüe y el Sparse-R son features o sistemas de integración de features.
Davide habla sobre la lentitud de la medida basada en similaridad espectral (base de datos Sql-lite)
Siguiente reunión: lunes 29 de septiembre del 2014.

Implementar el sistema de Davide en la máquina de Jorge en Villetaneuse e ir documentando el procedimiento en el wiki, empezando por los descriptores ligeros más simples y avanzando hacia los que requieren de una mayor infraestructura. La implementación mínima es el código en githb documentado en el wiki, la implementación experimental ideal es un servidor que reciba datos, ejecute las features y entregue la medida de similaridad. En este servidor también estarían el testbed experimental para entrenar con años anteriores de Semeval y probar con los datos de 2015.
Iván va a reclutar a uno o dos estudiantes de Licenciatura y Jorge les va a vender el numerito a los de postgrado durante el seminario del IIMAS. La intención es reclutar uno o dos estudiantes mexicanos que nos ayuden en Semeval.
Pensar en cómo integrar tanto el monolingual alignment de Sultan como el algoritmo de similaridad facial Sparse-R, así como el ya existente

método de integración de features por regresión lineal.

Talking points