Un método de extracción de información para cuantificar eventos violentos en México con organizaciones civiles

Construir una máquina basada en tecnologías del lenguaje que asista a los contadores ciudadanos del proyecto @menosdias, quienes desde hace cinco años cuentan cotidianamente víctimas de la violencia en México, en la tarea de extraer eventos violentos de la prensa cotidiana y repertoriarlos en un blog, un tuit y eventualmente una base de datos.

  1. Alineación de corpus por similaridad semántica entre tuits y notas de blog
  2. Anotación de lugares, personas y nombres en el corpus paralelo
  3. Anotación de partes del discurso y análisis sintáctico
  4. Análisis semántico y extracción de eventos
  5. Extracción de candidatos a eventos violentos para validación por parte del contador humano
  6. Creación de los conjuntos de datos de entrenamiento y pruebas
  7. Primera evaluación en el conjunto de datos de prueba
  8. Segunda evaluación en las semanas blancas de @menosdias (semanas en donde no hubo voluntarios para contar)
  1. Extracción de notas de blogs y tuits
    • Responsables: Iván y Jorge
    • Fecha de entrega: 27 de Marzo
  2. Alineación del corpus
  3. Calcular similaridad semántica SOPA entre blogs y tuits en orden cronológico
  4. Alinear notas de blog y tuits
    • Responsables: Iván, Jorge y Davide
    • Fecha de entrega: 17 de abril
  5. Evaluación de la alineación
    • Responsables: Iván y Jorge
  6. Redacción del artículo para EMNLP 2015
    • Fecha límite
      • (long papers): 30 de mayo
      • (short papers): 15 de junio
  1. Parsing sintáctico y semántico para la extracción de información
  2. Construcción de una base de datos
  3. Aplicación web para los contadores

https://lipn.univ-paris13.fr/en/

http://nuestraaparenterendicion.com/

  • EMNLP 2015: Machine reading sobre @menosdias para popular una base de datos. Deadline: 31 de mayo del 2015
  • 2015-2016: Journal con NLP y digital humanities (TODO: encontrar un socio en digital humanities).
  • Dernière modification: il y a 4 ans