A3, AOC, CALIN, LCR, MERCRED, RCLN

Heure:	00:59 - 15:00
Lieu:	Salle B107, bâtiment B, Université de Villetaneuse
Résumé:	Séquences fréquentes maximales et applications
Description:	Antoine Doucet Une séquence d'items (par exemple, des mots, ou des caractères), est définie par l'ordre dans lequel ces items apparaissent dans un document, indépendamment de la distance qui les y sépare. Une séquence est dite fréquente, si elle apparaît dans plus de documents qu'un seuil de fréquence documentaire donné. Elle est dite maximale dès lors que l'insertion de tout autre item induit une fréquence inférieure au seuil. Appliquées par exemple au niveau phrastique, les séquences fréquentes maximales (SFM) forment ainsi des descripteurs compacts, qui ne sont ni limités en taille, ni par la distance les séparant dans le corpus initial. Je détaillerai tout d'abord notre méthode non supervisée permettant l'extraction et la sélection efficace de séquences fréquentes maximales depuis des corpus de texte de toute taille, quel qu'en soit le genre, et quelle qu'en soit la langue. Je présenterai ensuite plusieurs applications de ces travaux, notamment en extraction de synonymes, utilisant les SFM comme pivots d'alignement de paraphrases. J'aborderai également nos applications en recherche d'information multilingue, en veille épidémiologique multilingue et en détection de nouveauté dans des flux de dépêches d'agence de presse.

Lundi 4 Février