Un método de extracción de información para cuantificar eventos violentos en México con organizaciones civiles

De wikiRcln
Aller à : navigation, rechercher

An information extraction method for assisting a citizen count of violent events in Mexico

Objetivo

Construir una máquina basada en tecnologías del lenguaje que asista a los contadores ciudadanos del proyecto @menosdias, quienes desde hace cinco años cuentan cotidianamente víctimas de la violencia en México, en la tarea de extraer eventos violentos de la prensa cotidiana y repertoriarlos en un blog, un tuit y eventualmente una base de datos.

Metodología

  1. Alineación de corpus por similaridad semántica entre tuits y notas de blog
  2. Anotación de lugares, personas y nombres en el corpus paralelo
  3. Anotación de partes del discurso y análisis sintáctico
  4. Análisis semántico y extracción de eventos
  5. Extracción de candidatos a eventos violentos para validación por parte del contador humano
  6. Creación de los conjuntos de datos de entrenamiento y pruebas
  7. Primera evaluación en el conjunto de datos de prueba
  8. Segunda evaluación en las semanas blancas de @menosdias (semanas en donde no hubo voluntarios para contar)

Plan

Primera iteración (EMNLP)

  1. Extracción de notas de blogs y tuits
    • Responsables: Iván y Jorge
    • Fecha de entrega: 27 de Marzo
  2. Alineación del corpus
    1. Calcular similaridad semántica SOPA entre blogs y tuits en orden cronológico
    2. Alinear notas de blog y tuits
      • Responsables: Iván, Jorge y Davide
      • Fecha de entrega: 17 de abril
  3. Evaluación de la alineación
    • Responsables: Iván y Jorge
  4. Redacción del artículo para EMNLP 2015
    • Fecha límite
      • (long papers): 30 de mayo
      • (short papers): 15 de junio

Segunda iteración

  1. Parsing sintáctico y semántico para la extracción de información
  2. Construcción de una base de datos
  3. Aplicación web para los contadores

Participantes

IIMAS - UNAM

LIPN - Université Paris 13

NAR

Herramientas

Referencias

Sobre @menosdias

  1. Menos Días Aquí: tweeter account and blog
  2. Menos Días Aquí: Civilian Casualties, the Archive, and Naming Violent Murders in Mexico”. E-misferica, 9.1-9.2, summer, 2012.
  3. Menos días aquí: Conteo, archivo y nombramiento civil de muertes por violencia en México
  4. Latest battlefield in Mexico's drug war: Social media
  5. Un blog ciudadano pone rostro a los muertos de la lucha contra el narco
  6. Messico, una mattanza senza fine. In un blog la conta dei morti per mantenere viva la memoria

Sobre extracción de eventos violentos

  1. The New War Correspondents: The Rise of Civic Media Curation in Urban Warfare, by Andres Monroy-Hernandez, Danah Boyd, Emre Kıcıman, Munmun De Choudhury, and Scott Counts, 23 February 2013.
  2. Knowing Where and How Criminal Organizations Operate Using Web Content, by Viridiana Rios and Michele Coscia, 24/11/2012.
  3. Iraq Body Count
  4. Egypt's death toll
  5. Every casualty

Metas

  • EMNLP 2015: Machine reading sobre @menosdias para popular una base de datos. Deadline: 31 de mayo del 2015
  • 2015-2016: Journal con NLP y digital humanities (TODO: encontrar un socio en digital humanities).