Lundi 4 Février


Retour à la vue des calendrier
Lundi 4 Février
Heure: 00:59 - 15:00
Lieu: Salle B107, bâtiment B, Université de Villetaneuse
Résumé: Séquences fréquentes maximales et applications
Description: Antoine Doucet Une séquence d'items (par exemple, des mots, ou des caractères), est
définie par l'ordre dans lequel ces items apparaissent dans un
document, indépendamment de la distance qui les y sépare. Une
séquence est dite fréquente, si elle apparaît dans plus de documents
qu'un seuil de fréquence documentaire donné. Elle est dite maximale
dès lors que l'insertion de tout autre item induit une fréquence
inférieure au seuil.

Appliquées par exemple au niveau phrastique, les séquences
fréquentes maximales (SFM) forment ainsi des descripteurs compacts,
qui ne sont ni limités en taille, ni par la distance les séparant
dans le corpus initial.

Je détaillerai tout d'abord notre méthode non supervisée permettant
l'extraction et la sélection efficace de séquences fréquentes
maximales depuis des corpus de texte de toute taille, quel qu'en
soit le genre, et quelle qu'en soit la langue.

Je présenterai ensuite plusieurs applications de ces travaux,
notamment en extraction de synonymes, utilisant les SFM comme pivots
d'alignement de paraphrases. J'aborderai également nos applications
en recherche d'information multilingue, en veille épidémiologique
multilingue et en détection de nouveauté dans des flux de dépêches
d'agence de presse.