Davide habla sobre las posibles mejoras que le gustaría implementar en 2015
Spectral similarity (básicamente es una comparación de distribuciones estadísticas de las coocurrencias de cada palabra (unigrama)
¿Por qué el criterio geográfico no funcionó?
Skipgrams (software: Colibrí)
La medida de IR: habíamos quedado de implementarla no sólo sobre un corpus de noticias, sino también sobre información proveniente del web
Nos preguntamos cómo combinar la experimentación con todas las medidas
¿Un servidor? ¿La máquina de Jorge en Villetaneuse?
Davide propone clasificar los distintos descriptores (features) entre las pesadas, es decir aquellas que requieren de recursos pesados (DBPedia, Wordnet, Lucene, Aquaint) y aquellas que se pueden correr con sólo tener el código en Github (ejemplo: Levenstein).
Estaría bien que para mediados de octubre tuviéramos un servidor en donde cada feature es un servicio al cual le damos los datos y nos entrega la medida de similaridad.
Hablamos también de las maneras de combinar las features: regresión, Sparse-R y alineación monolingüe de Sultan.
Iván habla sobre el proceso de replicado del run ganador (alineamiento monolingüe). Nos pregntamos si el alineamiento monolingüe y el Sparse-R son features o sistemas de integración de features.
Davide habla sobre la lentitud de la medida basada en similaridad espectral (base de datos Sql-lite)
Siguiente reunión: lunes 29 de septiembre del 2014.