lipn

Laboratoire d'Informatique de Paris Nord

UMR 7030, Université Paris 13, 99 avenue Jean-Baptiste Clément, 93430 Villetaneuse

up13 cnrs


ACL-RelAcS

C’est un corpus conçu pour l’acquisition de relations sémantiques semantic RELation ACquiSition (extraction et classification) dans le domaine scientifique. Il est annoté avec des concepts du domaine et des relations sémantiques. Le corpus est composé d’environ 11.000 articles venant du corpus ACL Anthology. Le corpus est sous licence Creative Commons développé par Kata Gabor. 


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : https://lipn.univ-paris13.fr/~gabor/Relacs/
  • Laboratoire d'origine : LIPN
  • Réferences :
    Kata Gábor, Haïfa Zargayouna, Isabelle Tellier, Davide Buscaldi, Thierry Charnois: A Typology of Semantic Relations Dedicated to Scientific Literature Analysis. SAVE-SD Workshop at the 25th World Wide Web Conference. 2016

    Kata Gábor, Haïfa Zargayouna, Davide Buscaldi, Isabelle Tellier, Thierry Charnois: Semantic Annotation of the ACL Anthology Corpus for the Automatic Analysis of Scientific Literature. Proceedings of the LREC 2016 Conference, Portoroz, Slovenia, May 2016.

Annotator

Annotator est un plugin eclipse permettant d’annoter un texte au regard d’ontologies OWL et d’un thesaurus SKOS. L’annotation consiste à marquer les unités textuelles correspondant à des éléments de l’ontologie (concept, instance). Le thesaurus contient les unités terminologiques associées aux éléments de l’ontologie. Le texte annoté en RDFA peut être visualisé dans un navigateur. L’annotateur est intégré à l’outil SemEx et à la plateforme Terminae. Cet annotateur a été développé par Abdoulaye Guissé, François Lévy et Sylvie Szulman.



BNI

Plateforme BNI (Bibliothèque Numérique des Idées) C’est une plateforme numérique d’accès sémantique réalisée dans le cadre du projet BNI (voir section 4.4). L’interface web permet une navigation par auteur, par concept ou notion philosophique. Une recherche par mot clés est aussi possible via le moteur de recherche Apache SolR. 


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://tal.lipn.univ-paris13.fr/bni/
  • Laboratoire d'origine : LIPN

Cartographies sonores de langues du monde

C’est une application web de valorisation des recherches du Labex EFL. Le site montre sur une carte la diversité des langues étudiées au sein du Labex EFL, et permet de parcourir un paysage sonore, c’est à dire, de parcourir la carte en écoutant une chanson, un récit où une blague dans ces langues. On peut également approfondir dans la description d’une langue, où enregistrer sa propre langue maternelle et la situer sur la carte. 


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://tal.lipn.univ-paris13.fr/cartographies/
  • Laboratoire d'origine : LIPN
  • Réferences :

Framester

Plate-forme de partage de ressources linguistiques ouvertes et liées, à mi chemin de FrameNet, WordNet, VerbNet, BabelNet, DBpedia, Yago, DOLCE-Zero. Ce système permet de créer un graph de connaissances fortement connecté ainsi que d'appliquer un traitement formelle basée sur la sémantique des cadres de Fillmore, ce qui donne à un utilisateur la possibilité d'exprimer des requêtes OWL et de raisonner sur le graph de connaissances crée. Il a été développée par Mewish Alam et Aldo Gangemi. 


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://lipn.univ-paris13.fr/framester/
  • Laboratoire d'origine : LIPN
  • Réferences : Framester: A Wide Coverage Linguistic Linked Data Hub. Aldo Gangemi, Mehwish Alam, Luigi Asprino, Valentina Presutti, Diego Reforgiato Recupero. EKAW 2016.

FRED.lipn

C’est un système de machine reading capable d’analyser une phrase en langage naturel, d’en extraire les entités et les relations sémantiques, et de les connecter aux connaissances existantes dans le Web des Données. Cette fork française de la version italienne (développée par Aldo Gangemi à l’ISTC-CNR - Conseil Nationale de Recherches, Rome) voudrait devenir code ouvert à moyen terme. 


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://tal.lipn.univ-paris13.fr/fred/
  • Laboratoire d'origine : ISTC-CNR
  • Réferences : "Semantic Web Machine Reading with FRED". Aldo Gangemi, Valentina Presutti, Diego Reforgiato Recupero, Andrea Giovanni Nuzzolese, Francesco Draicchio, and Misael Mongiovì. Semantic Web, vol. Preprint, no. Preprint, pp. to appear, 2016

Golfred

C’est un système de génération de récits d’expérience pour un robot de service. Il permet de décrire et de résumer les tâches faites par un robot. Il dépend de FRED (système de machine reading) et le générateur de texte Géni (LORIA). Le système est le résultat d'un projet AUF-PIRAT avec l'IIMAS-UNAM (Mexique), le LORIA et le LIPN. 

  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : https://github.com/rcln/Golfred
  • Laboratoire d'origine : LIPN / IIMAS-UNAM
  • Réferences : Meza, I., Garcia-Flores, J., Gangemi, A. Pineda, L.:Towards narrative generation of spatial experiences in service robots. Proceedings of IJCAI 2016 WS Autonomous Mobile Service Robots. pp. 4. 2016.

Lorg.lipn

Lorg.lipn Un analyseur syntaxique et un extracteur de grammaires pour les PCFG-LA, grammaires algébriques probabilistes à annotations latentes (en C++) 


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://github.com/jihelhere/LORG-Release/
  • Laboratoire d'origine : NCLT at Dublin City University
  • Réferences :
    [1] "Handling Unknown Words in Statistical Latent-Variable Parsing
      Models for Arabic, English and French", Mohammed Attia, Jennifer
      Foster, Deirdre Hogan, Joseph Le Roux, Lamia Tounsi and Josef van
      Genabith, Proceedings of SPMRL 2010.

    [2] "Improved Inference for Unlexicalized Parsing", Slav Petrov and
    Dan Klein, HLT-NAACL 2007

    [3] "Language-Independent Parsing with Empty Elements", Shu Cai,
    David Chiang and Yoav Goldberg, ACL-2011 (Short Paper)

Neoveille

Plateforme NEOVEILLE La plateforme web permet de gérer les différents modules du projet : gestionnaire des corpus, gestionnaire des néologismes de forme-candidats, gestionnaire de description linguistique des néologismes, gestionnaire des néologismes sémantiques. Un moteur de recherche à fonctionnalités étendues, basé sur Apache Solr permet d’explorer le corpus dynamique, et un module de veille néologisme permet de visualiser le cycle de vie des néologismes selon plusieurs paramètres : évolution fréquencielle temporelle, par types de journaux, par domaines, par pays. Le projet NEOVEILLE a également développé trois programmes permettant la récupération de corpus (sept langues), le repérage automatique des néologismes de forme, le calcul des profils combinatoires des lexies sur gros corpus, et le calcul des innovations
sémantiques.


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://tal.lipn.univ-paris13.fr/neoveille/
  • Laboratoire d'origine : LIPN
  • Réferences : https://lipn.univ-paris13.fr/~cartier/index.php?id=neoveille

OMTAT

Omtat est un outil d’annotation qui permet d’annoter des fragments discontinus (ex : ne. . . pas) et de les associer dans des structures relationnelles. Il permet aussi de marquer des zones fonctionnelles (ex : titre de section, motivations du jugement). Il dispose enfin d’une interface de visualisation des relations entre annotations et d’une sélection de celles-ci par requètes. L’outil est réalisé par une application java sous Eclipse (18000 lignes de code). Il est développé par François Levy et Sylvie Szulman.


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://tal.lipn.univ-paris13.fr/omtat/
  • Laboratoire d'origine : LIPN

Platanne

Plateforme d’annotation développée en utilisant le framework de développement Apache-UIMA. Cette plateforme repose sur un système de types générique qui met l’accent sur la nature des annotations à représenter (segmentation, étiquette, relation...) et qui supporte les annotations conflictuelles.

Actuellement, cette plateforme contient des composants permettant d’encapsuler les outils suivants : TagEN, TreeTagger, LIA tools et YaTeA . Elle est développée par Erwan MoreauLaurent Audibert et Jorge Garcia Flores dans le cadre du programme Quaero.

Code source ouvert: https://github.com/rcln/platanne


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : https://lipn.univ-paris13.fr/rcln/wiki/index.php/Platanne

SDMC

SDMC, Sequential Data Mining under Multiple Constraints est un outil fondé sur des techniques de fouille de données séquentielles sous contraintes pour découvrir à partir de textes bruts des connaissances sous forme de motifs séquentiels. Il est utilisable librement en ligne avec une interface simplifiée pour les non informaticiens.


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://tal.lipn.univ-paris13.fr/sdmc/
  • Laboratoire d'origine : GREYC

SemEx

SemEx est une plateforme d’aide à la construction et à l’exploration d’un modèle métier à partir de textes réglementaires et procéduraux. SemEx repose sur les standards du W3C (SKOS, RDF, RDFa, SPARQL) et s’appuie sur le moteur sémantique CORESE 3.



SOPA-Semeval

C’est un système de calcul de similarité sémantique entre deux phrases basé sur un modèle de régression linéaire et développé pour participer dans la tâche Semantic Textual Similarity de Semeval.


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : https://github.com/dbuscaldi/SOPA
  • Laboratoire d'origine : LIPN
  • Réferences :
    Buscaldi, D., Garcia, J., Meza, I. Rodriguez, I.:SOPA: Random Forests Regression for the Semantic Textual Similarity task. Proceedings of SemEval-2015. pp. 132--137. 2015.


Terminae

Terminae est une plateforme d’aide à la construction de ressources termino-ontologiques à partir de sources textuelles. Elle met en œuvre la méthodologie Terminae qui guide l’ingénieur de la connaissance dans le travail de construction d’une ontologie. Elle s’appuie sur un niveau termino-conceptuel intermédiaire pour permettre le passage du texte et des connaissances terminologiques qui en sont extraites au niveau conceptuel (l’ontologie). Cette plateforme permet de visualiser les résultats d’outils de traitement automatique des langues (des extracteurs de termes et des outils de reconnaissance d’entités nommées, notamment) et de les utiliser pour construire des ressources termino-ontologiques (terminologies, thésaurus, ontologies) où les éléments conceptuels disposent d’un ancrage linguistique.

La plateforme est réalisée par une application Eclipse. Elle supporte l’import/export en SKOS et en OWL. Dans la version actuelle, le niveau conceptuel est réalisé par le plugin Neon Toolkit 2.4. Les versions disponibles permettent de travailler à partir de textes français et anglais. Terminae est développé par Sylvie Szulman.



Termometer

Termometer est un utilitaire permettant d’évaluer une liste de termes au regard d’une référence. La mesure de distance terminologique sur laquelle il repose permet de tenir compte de l’aspect graduel de la pertinence terminologique dans l’évaluation des sorties d’extracteur de termes.

Termometer a été développé par Thibault Mondary et Jonathan van Puymbrouck dans le cadre du programme Quaero où il est utilisé dans des campagnes d’évaluation. Cet utilitaire est disponible sur SourceForge, sous licence GPLv3.



Terrier SIR

Terrier SIR est une plateforme OpenSource qui enrichit la plateforme de recherche d’information Terrier IR de fonctionnalités sémantiques modulaires. Elle favorise aussi bien l’implémentation et le test de méthodes de recherche d’informations sémantique que leurs éventuelles mises à jour ou adaptations.

La plateforme est développée par Ines Bannour dans le cadre du projet Legilocal. Elle est en phase de test et sa diffusion est prévue fin 2012.


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : https://github.com/rcln/TerrierSIR
  • Laboratoire d'origine : LIPN

UnoporunO

Système de localisation d’experts sur le web par extraction de connaissances sémantiques. Actuellement il est utilisé par des sociologues de la migration pour la localisation des diasporas latino-américaines hautement qualifiées (projet Ecos Nord avec le Mexique). 

  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://tal.lipn.univ-paris13.fr/unoporuno/
  • Laboratoire d'origine : LIMSI
  • Réferences : J. J. Garcia Flores, Pierre Zweigenbaum, Zhao Yue and W.A. Turner (2012) Tracking Researcher Mobility on the Web Using Snippet Semantic Analysis. In H. Ishara & K. Kanzaki, Advances in Natural Language Processing 8th International Conference on NLP, October 22-24, Kanazawa, Japan. (JapTAL 2012) Springer Lecture Notes in Computer Sciences, vol. 7614, ISBN 978-3-642-33983-7, pp. 180-191.


ValiTerms

ValiTerms est un outil qui a pour objectif de faciliter la validation d’une liste de termes. ValiTerms propose une interface web qui prend en compte un corpus étiqueté morpho-syntaxiquement et une liste de termes. À l’aide de cette interface, l’expert est en mesure d’analyser rapidement les termes dans leur contexte (la phrase) et de décider de leur validité. La gestion de session permet de reprendre un travail en cours et de stocker les résultats à toutes les étapes du travail.

ValiTerms est développé par Thibault Mondary dans le cadre du programme Quaero. Il est utilisé par des experts de l’INIST pour l’enrichissement de thesaurus et durant la phase d’adjudication des campagnes d’évaluation. Cet outil est disponible sur SourceForge, sous licence GPLv3.



YaSemIR

YaSemIR est un moteur de recherche d’information sémantique qui enrichit Lucene avec l’intégration de concepts et des calculs de similarité sémantique. Le moteur est disponible en code source ouvert


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : https://github.com/dbuscaldi/YaSemIR/
  • Laboratoire d'origine : RCLN

YaTeA

YaTeA (Yet another Term extrActor) identifie et extrait des groupes nominaux pou- vant être des termes, i.e. des termes candidats. Chaque terme candidat est analysé syntaxiquement pour faire apparaître sa structure sous la forme de relations tête-modifieur. L’extraction de termes candidats repose sur une stratégie hybride par laquelle l’extraction à partir de patrons syntaxiques construits manuellement peut être guidée et corrigée à l’aide de ressources terminologiques existantes (désambiguïsation exogène). Ces termes attestés aident au repérage des groupes, à leur analyse syntaxique et participent également à l’extraction des termes candidats.

YaTeA, qui a été développé par Thierry Hamon et Sophie Aubin, est disponible sous licence GPL sous la forme d’un module CPAN.


  • Contact : Cette adresse e-mail est protégée contre les robots spammeurs. Vous devez activer le JavaScript pour la visualiser.
  • Lien vers le projet : http://search.cpan.org/~thhamon/Lingua-YaTeA/
  • Laboratoire d'origine : LIPN

pres

w3c-xhtml