Un método de extracción de información para cuantificar eventos violentos en México con organizaciones civiles
Objetivo
Construir una máquina basada en tecnologías del lenguaje que asista a los contadores ciudadanos del proyecto @menosdias, quienes desde hace cinco años cuentan cotidianamente víctimas de la violencia en México, en la tarea de extraer eventos violentos de la prensa cotidiana y repertoriarlos en un blog, un tuit y eventualmente una base de datos.
Metodología
- Alineación de corpus por similaridad semántica entre tuits y notas de blog
- Anotación de lugares, personas y nombres en el corpus paralelo
- Anotación de partes del discurso y análisis sintáctico
- Análisis semántico y extracción de eventos
- Extracción de candidatos a eventos violentos para validación por parte del contador humano
- Creación de los conjuntos de datos de entrenamiento y pruebas
- Primera evaluación en el conjunto de datos de prueba
- Segunda evaluación en las semanas blancas de @menosdias (semanas en donde no hubo voluntarios para contar)
Plan
Primera iteración (EMNLP)
- Extracción de notas de blogs y tuits
- Responsables: Iván y Jorge
- Fecha de entrega: 27 de Marzo
- Alineación del corpus
- Calcular similaridad semántica SOPA entre blogs y tuits en orden cronológico
- Alinear notas de blog y tuits
- Responsables: Iván, Jorge y Davide
- Fecha de entrega: 17 de abril
- Evaluación de la alineación
- Responsables: Iván y Jorge
- Redacción del artículo para EMNLP 2015
- Fecha límite
- (long papers): 30 de mayo
- (short papers): 15 de junio
Segunda iteración
- Parsing sintáctico y semántico para la extracción de información
- Construcción de una base de datos
- Aplicación web para los contadores
Participantes
IIMAS - UNAM
LIPN - Université Paris 13
https://lipn.univ-paris13.fr/en/
- Davide Buscaldi, LIPN, Université Paris 13
- Jorge García Flores, LIPN, Université Paris 13
- Thierry Charnois, LIPN, Université Paris 13
NAR
http://nuestraaparenterendicion.com/
- Alejandro Vélez
- Jaimie (UK)
Herramientas
Referencias
Sobre @menosdias
- Menos Días Aquí: tweeter account and blog
Sobre extracción de eventos violentos
- The New War Correspondents: The Rise of Civic Media Curation in Urban Warfare, by Andres Monroy-Hernandez, Danah Boyd, Emre Kıcıman, Munmun De Choudhury, and Scott Counts, 23 February 2013.
- Knowing Where and How Criminal Organizations Operate Using Web Content, by Viridiana Rios and Michele Coscia, 24/11/2012.
Metas
- EMNLP 2015: Machine reading sobre @menosdias para popular una base de datos. Deadline: 31 de mayo del 2015
- 2015-2016: Journal con NLP y digital humanities (TODO: encontrar un socio en digital humanities).