Table des matières

Réunion CONLL 2016 shared Task 25/01/2016

Task definition

  1. Joseph expose la tâche: analyse du discours superficielle à partir du papier qui la présente
    • La tâche part des connecteurs explicites (before, so) pour reconnaitre les arguments, l'extension de l'influence du connecteur et attribuer une étiquette (Temporal.Asynchronous.Precedence).
  2. On discute sur les exemples de la section 3.1 de l'article.
  3. La tâche implique aussi le repérage de connecteurs implicites (section 3.1, exemple 4,5,6)
  4. On révise les données d'évaluation (section 3.2 de l'article), extraites du Penn Tree Bank.
  5. Les scores ne sont pas très bons pour les meilleurs systèmes (autour de 25%)… “On peut faire mieux”, dit Joseph.
  6. On discute sur le niveau d'accord des annotateurs (autour de 75-85%)
  7. On parle de la distribution des relations discursives (Table 3 de l'article). Il y a autant des relations explicites qu'implicites (plus difficiles à repérer, on suppose).
  8. Deux modalités de participation: fermé (à entraîner qu'avec les données de la campagne et des outils non propriétaires) et ouvertes (à entraîner avec n'importe quel jeu des données et des outils non propriétaires), section Evaluation.
  9. L'année dernière tout le monde à participer en modalité fermé
  10. On télécharge le système sur une machine virtuelle et ce sont eux qui effectuent le blind test sur lequel est basé l'évaluation
  11. Ce n'est pas nécessaire de reconnaître les connecteurs implicites.
  12. Les argument doivent nécessairement coïncider avec l'extension du gold standard.

Data

  1. On analyse le format des données d'entraînement (relation.json, parses.json)
  2. Le gold standard est le Penn Treebank modifié

Métriques

On calcule F pour:

Méthodologie

  1. Tous les participants ont adopté l'architecture de Lin et al (2014)
  2. La majorité de participants en 2015 ont utilisé de l'apprentissage automatique. Très peu des approches font appel aux réseaux de neurones.
  3. Les résultats en 2015 sont très bas (F~20-30%)
  4. La détection de connecteurs n'est pas mauvaise: ~90% sur les explicites
  5. L'approche gagnant en 2015 ont fait une cascade de classificateurs
  6. Joseph a deux idées:
  7. Reprendre le système gagnant de l'année dernière en évitant la cascade de classificateurs et la cascade d'erreur
    • Problème: on ne peut pas facilement réutiliser le système gagnant de 2015
    • Quels sont les systèmes qu'on pourrait joindre?
  8. Faire du deep learning
  9. Nadi propose de faire une table de segmentation
  10. Antoine propose de faire deux apprentissage séparés

Deadline

ToDo

  1. Lire les autres approches (se partager les articles)
  2. Faire des statistiques sur les données
  3. Partager les données sur le serveur TAL
  4. Créer une chaîne slack et un Trello
  5. Créer un groupe de mél pour CONLL
  6. Créer un depôt gitlab pour le code source

Prochaine réunion