Ingénieur·e développement Web pour le TAL – CDD 12 mois

Le LIPN-RCLN (CNRS UMR 7030), dans le cadre d’un financement du ministère de la culture (DGLFLF) et du Labex Fondements Empiriques de la Linguistique (EFL), recherche un·e ingénieur·e en développement Web et Traitement Automatique des Langues. Il s’agira de mettre en place une plateforme web modulaire et extensible pour manipuler des corpus, des dictionnaires, et effectuer différents traitements automatiques sur ces données. L’ingénieur·e devra également y intégrer trois outils déjà développés au LIPN : Néoveille – un outil de détection de néologismes -, SDMC -un outil de fouille de motifs – et Morfetik – un dictionnaire morphologique du français contemporain (cf. références ci-dessous).

L’ingénieur·e sera intégré·e à l’équipe de recherche RCLN du LIPN (CNRS UMR 7030), spécialisée en Traitement Automatique des Langues (TAL) et représentation des connaissances. Il·elle sera co-encadré·e par les responsables des différents projets et par Jorge Garcia Florés, ingénieur de recherche de l’équipe RCLN.

Missions

  • Mise en place de la plateforme web, avec une interface publique et une interface privée, et trois modules : gestionnaire de corpus, gestionnaire de dictionnaires et Outils TAL ;
  • Développement du module « corpus » : chargement, pré-traitements (segmentation, analyse morphosyntaxique), sauvegarde des documents dans le moteur de recherche Apache Solr, édition des métadonnées (sur la base des développements déjà présents dans Néoveille et SDMC) ;
  • Développement du module ’dictionnaires » : intégration du dictionnaire Morfetik (recherche, navigation et visualisation, édition des données) ;
  • Développement du module Outils TAL : connexion des modules de la plateforme Néoveille ;
  • Développement du module Outils TAL : connexion des modules de la plateforme SDMC ;
  • Développement du module Outils TAL : création d’un module de Topic Modeling ;

Compétences

Indispensables

  • École d’ingénieur ou Master Informatique ou Sciences de données ;
  • Expérience en programmation Python ;
  • Compétences en développement web (notamment Javascript) ;
  • Compétences en bases de donnés mySQL/mongoDB
  • Expérience en système d’exploitation Linux.

Souhaitées

  • MVEN (MongoDB, Vue.js, Express.js, Node.js)
  • Librairies de visualisation d3.js
  • Apache Solr ou ElasticSearch
  • Expérience en Traitement Automatique des Langues

Informations pratiques

Durée du CDD : 12 mois
Salaire : selon la grille ingénieur d’étude
Lieu de travail
LIPN, CNRS UMR 7030, Université Sorbonne Paris Nord
99 avenue Jean-Baptiste Clément
93430 VILLETANEUSE
Contact : Merci d’envoyer CV et lettre de motivation en indiquant comme sujet Plateforme DGLFLF/Labex : recrutement ingénieur TAL à
Emmanuel Cartier / emmanuel.cartier@lipn.univ-paris13.fr
Jorge Garcia Flores / jgflores@lipn.univ-paris13.fr

Références

  • Néoveille : Cartier, E. (2019). Néoveille, plateforme de détection, de repérage et de suivi des néologismes en onze langues. Neologica, 13-2019 (p. 23-54).
  • SDMC : Béchet, N., Cellier, P., Charnois, T., et Crémilleux, B. (2015). Sequence mining under multiple constraints. In Proceedings of the 30th Annual ACM Symposium on Applied Computing (pp. 908-914).
  • Morfetik : Grezka A., Cartier E. et Mathieu-Colas M. (2015). Dictionnaires morphologiques du français contemporain : présentation de Morfetik, éléments d’un modèle pour le TAL. Actes du colloque TALN 2015 (p. 466-472).