Minuta de reunión semeval del 14 de octubre del 2014
Participantes
- Iván Vladimir Meza
- Davide Buscaldi
- Belém Priego
- Jorge García Flores
- José Manuel Snyder
- Ismael Atzallaca Servín Sandoval
Puntos tratados
Nombre del sistema
Davide propone que le llamemos SoPa, no tanto por el acrónimo sino por el carácter culinario de la cuestión: una olla a donde echamos múltiples métodos y sazonamos. Surgen variantes para el nombre: sopa minestrone, caldo tlalpeño, etc.
Objetivos para el 28 de octubre
- SoPa (antes ProxyCKPG) corriendo en sus dos sabores: inglés y español, e instalada a ambos lados del océano: en el servidor Markov del IIMAS y Damas del LIPN (responsables: Jorge e Ismael, con la asistencia técnica de Davide e Iván). El objetivo es que tanto el sistema desarrollado por Davide para Semeval 2013 y Semeval 2014 como los recursos de los cuales depende (Wordnet, IR, corpus desarrollado por Belém para STS 2013 en español, etc.) sean accesibles por todos los miembros del equipo y estén documentados aquí en el wiki.
- Plataforma experimental lista (responsable: Jorge). El objetivo es acondicionar el repertorio testbed del github para que los datos de las campañas anteriores estén disponibles para experimentación. Mínimamente este repertorio debería permitir:
- Hacer experimentos con datos de campañas anteriores y comparar contra el gold standard.
- Acceder tanto a los juegos de descriptores (features) como a los scores que las versiones 2013 y 2014 del sistema de Davide produjeron.
- Reproducir en el IIMAS el sistema ganador del 2014 basado en un algoritmo de alineamiento (responsables: José e Iván).
Innovaciones metodológicas que nos gustaría experimentar durante el mes de noviembre
- Sparse decoding (similaridad facial) (propuesta de Iván y Jorge)
- Extensión del método de similaridad por IR a descriptores provenientes de una búsqueda de la frase en cuestión en Google o Bing o Yahoo (propuesta de Davide)
- Clustering de los pares de frases que obtuvieron los resultados más pobres (propuesta de Iván)
- Entrenamiento segmentado por tipo de corpus (propuesta de Nadi y Jorge)
- Incorporación del alineamiento utilizado en por el sistema ganador del 2014 (propuesta de Iván)
Tareas pendientes
- Cuentas en Markov para todos (responsable: Iván)
- Cuentas en este wiki para todos (responsable: Jorge)
- Vínculo en dropbox con los datos de semeval 2014 y 2013 (responsable: Davide)