|
|
Lundi 8 Avril
Heure: |
14:00 - 15:00 |
Lieu: |
Salle B107, bâtiment B, Université de Villetaneuse |
Résumé: |
Outiller l'annotation manuelle de corpus : le bon (la qualité), la brute (la rapidité) et le truand (les biais) |
Description: |
Karën Fort L'annotation manuelle de corpus est devenue un enjeu fondamental pour le Traitement Automatique des Langues (TAL). En effet, les corpus annotés sont utilisés aussi bien pour créer que pour évaluer des outils de TAL. Or, le processus d'annotation manuelle est encore mal connu et les outils proposés pour supporter ce processus sont souvent mal utilisés, ce qui ne permet pas de garantir le niveau de qualité de ces annotations. Je présenterai lors de ce séminaire une vue d'ensemble de mes travaux de thèse, qui ont porté sur la mise au point d'une méthodologie pour l'annotation manuelle de corpus pour le TAL. Je détaillerai ensuite mes travaux concernant l'impact de la pré-annotation automatique sur la qualité et la rapidité de correction humaine, à travers une série d'expériences menées sur l'annotation morpho-syntaxique de l'anglais. Je finirai en proposant des pistes de recherche sur l'annotation assistée par ordinateur. |
|
|