lipn

Laboratoire d'Informatique de Paris Nord

UMR 7030, Université Paris 13, 99 avenue Jean-Baptiste Clément, 93430 Villetaneuse

up13 cnrs

Labex EFL

 

Labex EFL, Fondements empiriques de la linguistique/Empirical Fondations of Linguistics (ANR 2011-2021) – Projet en cours

Le labex EFL vise à ouvrir de nouvelles perspectives pour la linguistique par une approche intégrative. Il regroupe des équipes françaises de recherche de premier plan en linguistique théorique et appliquée, en linguistique computationnelle et en psycholinguistique. Grâce à des collaborations avec de prestigieuses institutions multidisciplinaires (CSLI, MIT, Institut Max Planck, SOAS...), le projet vise à créer une École de Linguistique de Paris, un nouveau site innovant et interdisciplinaire où le dialogue entre les différentes disciplines des sciences du langage sera encouragé, avec un accent particulier sur les bases empiriques et méthodes expérimentales et une expertise précieuse sur le transfert de technologie et les applications.

La direction scientifique est assurée par Jacqueline Vaissière (Université Paris 3) assistée de plusieurs directeurs adjoints, dont Adeline Nazarenko, qui a joué un rôle moteur dans le montage du projet. Adeline Nazarenko coordonne également les activités scientifiques de l’axe Sémantique computationnelle. Le budget alloué à ce labex dans son ensemble est de 9 millions d’euros sur 10 ans.

Partenaires : LPP LLF, Equipe PP du LPP Llacan, ALPAGE LATTICE, CRLAO, MII, HTL, LACITO, SEDYL, Equipe mémoire et langage du LPNCog

Quaero

 

Quaero (Oséo, 2008-2013) – ancien projet

Sous la direction de Technicolor (ex-Thomson), l’objectif de ce programme est de développer des outils intégrés de gestion des contenus multimédias, dont un moteur de recherche, des outils de veille scientifique et techniques, etc.

L’équipe RCLN participe aux projets Recherche (Core Technology Cluster) et Corpus. Elle contribue aux travaux portant sur l’acquisition de connaissances (terminologies, ontologies) et l’annotation sémantique. L’équipe est également responsable de l’évaluation des tâches d’acquisition de terminologies et d’ontologies, ce qui l’a amenée à concevoir des protocoles et/ou à mettre en place des campagnes d’évaluation.

Partenaires académiques : CNRS (INIST, LIMSI, IMMI), Inria, MIG-INRA, Institut Telecom, IRCAM, IRIT, RWTH, KIT, UJF.
Partenaires industriels : Technicolor (coordination), Exalead, France Télécom, Yacast, Jouve.

Legilocal

Legilocal (FUI-9 Cap Digital, 2010-2013) – ancien projet

Coordonné par la société Victoires Editions, le projet LegiLocal vise à simplifier l’ac- cès des citoyens aux données administratives, juridiques, publiques locales en propo- sant aux collectivités un bouquet de services qui s’intègrent aisément à leur site web en s’appuyant sur les technologies du Web Sémantique et du Web Social. L’équipe RCLN du LIPN apporte à ce projet sa double compétence en annotation sémantique et en ingé- nierie des connaissances. Les défis consistent à prendre en compte la dimension forte- ment intertextuelle des documents juridiques et différents niveaux de langue (juridique et citoyenne) dans les moteurs d’accès au contenu. Les premiers résultats concernent la mise en place de fonctionnalités sémantiques et la prise en compte de l’in- tertextualité caractéristique de la documentation juridique dans le moteur de recherche d’information.

Partenaires académiques : CERSA.
Partenaires industriels (PME) : Victoires Editions (coordination), Jamespot, Mondeca, Temis, ViaSema.

Discours

 

Discours (Projet MSH 2010-2012) – Ancien projet

Ce projet a porté sur l'analyse du discours, des aspects linguistiques aux applications documentaires. Le but de ce projet associant linguistes et informaticiens était de contribuer à la réflexion sur les outils permettant une analyse des macro-structures du discours et sur une indexation automatique de ces passages clés dans les textes. Le financement a permis d'inviter en novembre 2010 Yufan Guo, doctorant à Cambridge qui a travaillé sur la reconnaissance et l'annotation de zones sémantiquement homogènes dans des documents de biologie.

Partenaire : Lattice.

ONTORULE

ONTORULE (FP7, Large-scale integrating project, 2009-2011) – Ancien projet

Ce projet visait à faciliter l’interaction, la gestion et le contrôle des applications métier par les acteurs du domaine en séparant une couche conceptuelle modélisant les connaissances métiers (ontologie du domaine et règles) du code de l’application, ce qui a requis de développer les modèles formels, les méthodes et les outils permettant d’acquérir et de raisonner au niveau conceptuel.

L’équipe RCLN du LIPN a apporté à ce projet sa compétence en ingénierie des connaissances textuelles. Elle a montré comment les méthodes d’acquisition à partir de textes permettent d’exploiter les textes réglementaires. Elle a conçu une structure de modèle métier documenté où les textes sont indexés au regard du modèle sémantique et où le modèle sémantique est ancré dans les textes. Cela permet d’assurer la traçabilité des connaissances métier utilisées dans les systèmes d’aide à la décision, la gestion de leur cohérence et de leur nécessaire évolution. Cette approche a été testée sur plusieurs cas d’usage.

Partenaires académiques : FUB, TUW, Fundación CTIC.
Partenaires Industriels : IBM France (co- ordination), Ontoprise, PNA, Audi, Arcelor-Mittal.

CRoTAL

CRoTAL (ANR Masse de Donnée et Connaissances, 2008–2010) – Ancien projet

Le projet CRoTAL (Conditional Random Fields pour le TAL) dont l'objectif était l'étude et le développement de nouvelles techniques pour la manipulation de grandes masses de données textuelles, s'est focalisé sur les champs aléatoires conditionnels ou Conditional Random Fields (CRF). Ces modèles d'apprentissage statistique font partie à la fois de la famille des modèles graphiques et de celle des modèles d’apprentissage discriminant. Ils se situent actuellement au meilleur niveau dans plusieurs domaines d'ingénierie linguistique, comme l’extraction d'information ou la structuration des données textuelles.

Les participants du projet se sont attachés à tester, affiner et optimiser différents modèles de CRF pour les utiliser efficacement sur de très grands ensembles de données textuelles ou structurées. Au LIPN, l’étude a porté sur l'utilisation des CRF dans les graphes d’arbres. L'une des applications, l'annotation d'arbres syntaxiques en rôles sémantiques, a donné lieu à une participation au challenge CoNLL en 2010 et organisation d'un atelier ATALA (25 et 26 mars 2010).

Partenaires Académiques : LIFO, LIFL, Inria LNE, STL, Limsi-CNRS (coordination).

Dafoe4App

Dafoe4App (ANR, 2008-10) – Ancien projet

L'objectif de ce projet est de proposer une méthode complète et une plateforme technique Dafoe pour concevoir des ontologies, de la modélisation à partir du domaine à leur évolution en passant par leur formalisation et exploitation. La plate forme Dafoe reprend la méthodologie de Terminae développée au LIPN et à la suite des travaux de TIA mais s'appuie sur des technologies qui permettent de construire des ontologies de grandes ampleurs.

L'équipe RCLN du LIPN participe à ce projet pour les tâches de spécifications et d'analyse des documents textuels en s'appuyant sur l'expertise acquise autour du développement de Terminae.

 

Infom@gic

Infom@gic (2006-2009) – Ancien projet

Ce projet structurant du pôle de compétitivité Cap Digital, visait à mettre en place, sur une période de trois ans, un laboratoire industriel de sélection, de tests, d’intégration et de validation d’applications opérationnelles des meilleures technologies franciliennes dans le domaine du traitement de l’information. Ce laboratoire s’appuie sur une plateforme UIMA commune couvrant tous les grands domaines de l’analyse d’information (la recherche et l’indexation, l’extraction de connaissances et la fusion d’informations), quelles que soient les sources de données considérées (données structurées, texte, images et sons).

L’équipe RCLN du LIPN a participé à ce projet avec l’équipe A3 . Elle a surtout contribué aux tâches d’extraction de données textuelles.

Partenaires académiques : Universités Paris 6, Paris 8, Marne La vallée, GET, Limsi-CNRS.
Partenaires industriels : Thales (coordination), EADS, ONERA, et une vingtaine de PME, dont Bertin, Vecsys, Sinequa.

 

MICRAC

MICRAC (ANR, 2006-2008) « Modèles Informatique et Cognitifs du raisonnement Causal » – Ancien projet

Ce projet pluridisciplinaire reposait sur une étroite collaboration entre chercheurs en intelligence artificielle et en psychologie cognitive. Il visait à la construction d'un système informatique capable de représenter des relations causales, de reconnaître ces relations, d'expliquer des événements et d'attribuer des responsabilités à des agents.

Ce projet collaboratif a permis d'expliciter une vue multiforme de la causalité suivant ses objectifs, les notions élémentaires mises à son fondement et les propriétés qu'on lui suppose. Ces travaux ont donné lieu à un atelier. L'équipe RCLN a mis en oeuvre l’approche proposée dans son travail sur les constats d'accident. Des protocoles appropriés ont été construits pour valider les conjectures effectuées sur la construction d'une description à visée argumentative.

Partenaires : IRIT (coordination), CRIL, CLLE-LTC.

Textcoop

Textcoop, Typologies et grammaires de textes afin de rendre un TEXTe plus COOPératif en gestion de l'information (RNTL, 2006-2008) – Ancien projet

Le projet TextCoop avait pour but l'utilisation de typologies textuelles et de grammaires de textes dans des systèmes d'accès à l'information textuelle (moteurs de recherche, systèmes de question/réponse, extraction d'informations).

L'équipe RCLN a travaillé à l'analyse des types de textes (manuels utilisateur, recommandations médicales, documentations techniques, inventaires, articles scientifiques, discours, etc.) et à la conception de méthodes permettant de les prendre en compte dans des applications de recherche d'information. On sait en effet que la notion de type de texte influe sur certaines caractéristiques textuelles, que celles-ci concernent le lexique, la morphosyntaxe ou des modes d'organisation plus globaux.

Partenaires académiques : IRIT.
Partenaires indutriels : Sinequa, EADS.

ACTMed

ACTMed (Plan Pluriformations pour le plan quadriennal 2005-2008) – Ancien projet

Ce projet réunissait trois laboratoires de l'Université Paris-Nord qui ont collaboré pour développer des méthodes d'accès à l'information textuelle médicale. Il s'agissait en priorité de concevoir les outils qui permettent aux médecins de consulter les Guides de Bonne Pratique médicale produits par l'Agence Française de Sécurité Sanitaire des Produits de Santé (AFSSAPS).

Le LIPN a montré comment une analyse du discours permet de structurer sémantiquement les Guides de Bonne Pratique médicale et l'intérêt de cette structure pour le développement de fonctionnalités avancées de navigation dans ce type de documents.

Partenaires : LimBio, LLI.

ALvis

ALvis (STREP FP6, 2004-2006) – Ancien projet

Ce projet visait au développement d'un moteur de recherche spécialisé, sémantique et distribué. Les aspects sémantiques assurent une meilleure adéquation des résultats aux requêtes formulées par les utilisateurs qui ont des besoins spécifiques. La recherche distribuée repose sur la coopération de différents serveurs spécialisés dans des domaines différents.

L'équipe RCLN a mis au point une chaîne de traitements linguistiques (Ogmios) destinée à l'analyse de corpus spécialisés et les procédures d'adaptation sémantiques associées. Sur cette base, l'équipe MIG/INRA a mis au point un moteur de recherche sémantique spécialisé en Biologie (BioAlvis).

 

ExtraPloDocs

ExtraPloDocs (RNTL, 2002-2005) – Ancien projet

Partenaires : LIPN (coord.), MIG/INRA, Isoft

Ce projet exploratoire visait au développement d'un outil d'extraction d'information destiné à faciliter les recherches bibliographiques effectuées par les biologistes en génomique.

 

pres

w3c-xhtml