Présentation

La plateforme Néoveille a pour objectif d'offrir un outil de détection et de suivi des néologismes dans la presse en ligne et plus généralement l'ensemble des données disponibles sur le web. Le projet a été financé pour trois ans (juin 2015 - juin 2018) par la COMUE Sorbonne Paris Cité (regroupant plusieurs laboratoires de Sorbonne-Paris-Cité (LIPN, LDI, CLILLAC-ARP, ERTIM), les acteurs du groupe EMPNEO et l'Université de São Paulo (USP)), puis financé par la Direction Générale à la Langue Française et aux Langues de France (DGLF-LF).

Le projet propose :

  • Une interface de gestion de sources de presse en ligne (format RSS) : les sources sont ensuite récupérées une fois par jour et les néologismes automatiquement détectés;
  • Une interface de validation/invalidation des néologismes détectés automatiquement dans la phase précédente;
  • Une interface de suivi des néologismes validés, avec une visualisation des contextes et un suivi par différents indicateurs métalinguistiques (pays, journal, domaine);

Architecture générale

L'architecture générale du système est présentée dans la figure 2.

Dans cette architecture, le trait horizontal sépare les composants où l'expert linguiste pourra intervenir (partie basse) des composants où il n'aura pas accès (domaine de l'expert linguiste informaticien).

On distingue ainsi six grands modules :

  1. Le gestionnaire de corpus : l'expert linguiste peut déterminer (ajouter, supprimer, modifier) les corpus qu'il souhaite faire analyser par le système, actuellement soit un fil RSS, soit un site web. Il peut expliciter par ailleurs un certain nombre de méta-informations : nom du journal, url d'entrée, catégorie des informations fournies (presse générale ou spécialisée à l'heure actuelle), domaine (informatique, santé, économie, mode, etc.), langue (parmi les sept langues du projet), pays du journal (cette information pourra servir ultérieurement à étudier des différences néologiques par pays pour une même langue), type de la ressource (site web ou fil RSS actuellement), fréquence de parution. Ces informations sont associées à chaque unité d'information (« article ») qui sera récupérée et pourront permettre de filtrer les résultats dans le moteur de recherche. (voir onglet correspondant)
  2. La récupération des fils RSS, des articles liés et leur analyse linguistique : ce module permet d'effectuer la récupération régulière des articles de presse explicités dans les fils RSS et les pages web et d'effectuer différents traitements linguistiques : segmentation en mots, analyse morphosyntaxique puis syntaxique. Ce module permet d'ajouter à chaque fil de presse des éléments de contenu : titre de l'article, description de l'article (dénotant soir un résumé du contenu, soit une accroche), contenu de l'article lui-même, contenu étiqueté morphosyntaxiquement, lemmes du document (restreints aux catégories nom, verbe et adjectif), noms propres du document.
  3. Le repérage automatique de néologismes par la méthode du dictionnaire de référence pris comme corpus d'exclusion : ce module permet, à la suite de l'analyse morphosyntaxique, de ne conserver que des candidats néologismes après plusieurs filtres : noms propres, erreurs typographiques, puis précatégorisations des néologismes candidats en emprunts et néologismes ‘internes’.
  4. Le moteur de recherche et d'analyse des néologismes : cette interface permet de fouiller les résultats obtenus par les étapes précédentes via un moteur de recherche comprenant différentes propriétés (voir onglet correspondant)
  5. Le gestionnaire de néologismes :il s'agit d'une base de données préexistante au projet développée en collaboration avec Jean-François Sablayrolles au LDI. Nous renvoyons à (Cartier et Sablayrolles, 2010) pour le détail de ce module. Neologia est en interaction avec le moteur Neoveille de deux façons principales : d'une part, les néologismes présentés et leurs contextes peuvent être directement exportés dans la base Neologia ; d'autre part, il est toujours possible d'obtenir des informations sur le cycle de vie des néologismes après son insertion dans Neologia, par retour au moteur Neoveille.
  6. Le repérage des néologismes sémantiques par la méthode du profil combinatoire est lancé sur les lexies cibles et sera également disponible dans l'interface de recherche et d'analyse.
Contributeurs linguistiques
# Contributeurs Institution
Français Jean-François Sablayrolles(3), Emmanuel Cartier(1), Najet Boutmgharine(2), Massimo Bertocci(1), John Humbley(2), Natalie Kübler(2), Giovanni Tallarico (5), Christine Jacquet-Pfau(4) LIPN-RCN (UP13) (1), CLILLAC-ARP (UP7) (2), HTL (UP7) (3), Collège de France (4), Université de Vérone (5)
Chinois Lichao Zhu (2017) Université Paris 13
Grec Anna Anastassiadis-Symfonidis, Dimitra Alexandridou Université de Thessalonique (groupe EMPNEO)
Italien Jana Altmanova (1), Claudio Grimaldi (1), Silvia Zollo (1), Michela Murano (2), Maria-Teresa Zanolla (2) Université de Naples (1), Université Catholique de Milan (2)
Polonais Alicja Kacprzak, Anna Bobińska et Andrzej Napieralski Instytut Romanistyki Uniwersytet Łódzki (groupe EMPNEO)
Portugais (Brésil) Ieda Alvès Université de Sao Paulo
Russe Tatiana Iakovleva (2017) CLILLAC-ARP (UP7)
Tchèque Radka Mudrochova, Jan Lazar, Alena Polická, Zuzana Hildenbrand groupe EMPNEO
Espagnol Stéphane Patin CLILLAC-ARP (UP7)
Modélisation et développements informatiques
# Contribution Institution
Emmanuel Cartier Coordinateur projet, développement back-end et front-end LIPN - RCLN (UP13)
Gaël Lejeune (sept. 2016- sept. 2017) Développement du module de détection automatique des néologismes formels par machine learning LIPN - RCLN (UP13)
Loïc Galand (nov. 2017-) Mise en oeuvre d'une chaîne de traitement permettant la détection de différentes informations linguistiques (projet Néonaute) LIPN - RCLN (UP13)
Présentation générale de Néoveille

Cartier, Emmanuel (2016), « Neoveille, système de repérage et de suivi des néologismes en sept langues », Neologica 10, p. 101-131. Pre-print (ce document expose le projet à son démarrage. Pour une version récente, consulter l'article de 2018)

Cartier, Emmanuel (2017), Neoveille, a Web Platform for Neologism Tracking, Proceedi ngs of the EACL 2017 Software Demonstrations, Valencia, Spain, April 3-7 2017.

Cartier, Emmanuel (2019), « Neoveille, plateforme de détection, de repérage et de suivi des néologismes en onze langues », pdf

Etudes effectuées à partir de Néoveille

Boutmgharine Idyassner, Najet (2016), « Les stratégies de glose sur l’emprunt en discours », Colloque Emprunts néologiques et équivalents autochtones. Mesure de leurs circulations respectives, Universytet Łódzki, 10-12 octobre 2016, Łódz, Pologne. http://neologie.uni.lodz.pl.

Tallarico Giovanni (2016), « Cinquante nuances de board : les anglicismes néologiques et leurs équivalents dans le domaine des sports de glisse ». Colloque Emprunts néologiques et équivalents autochtones. Mesure de leurs circulations respectives, Universytet Łódzki, 10-12 octobre 2016, Łódz, Pologne. http://neologie.uni.lodz.pl

Viaux Julie, Cartier Emmanuel (2016), « Étude linguistique et quantitative de la pénétration des anglicismes de type (N,ADJ)-Ving dans sept langues à partir d’un corpus contemporain journalistique », Colloque international Emprunts néologiques et équivalents autochtones. Mesure de leurs circulations respectives, Universytet Łódzki, 10-12 octobre 2016, Łódz, Pologne.

Lejeune Gaël, Cartier Emmanuel (2017), Character Based Pattern Mining for Neology Detection,Proceedings of the First Workshop on Subword and Character Level Models in NLP , EMNLP 2017, Copenhagen, p.25-30.

Cartier E., Sablayrolles J.-F., Boutmgharine N., Humbley J., Bertocci M., Jacquet-Pfau C., Kübler N. et Tallarico G. (2018), « Détection automatique, description linguistique et suivi des néologismes en corpus : point d'étape sur les tendances du français contemporain » , Actes du Congrès Mondial de Linguistique Française, Mons (Belgique), 9-13 juillet 2018, 20p.

Cartier E. (2018). « Emprunts en français contemporain : étude linguistique et statistique à partir de la plateforme Néoveille » dans Emprunts en question(s), Kacprzak, A. ; Mudrochová, R. ; Sablayrolles, J.-F. (éds), La Lexicothèque, Limoges, Lambert-Lucas, 27p.

Cartier E. (2018). « Noms propres et innovation lexicale : étude linguistique et statistique à partir de Néoveille », Cahiers de Lexicologie, n°113, 2018-2, Néologie et noms propres, p. 203-224

Patin S. (2020). « Detección y estudio de los neologismos políticos en un corpus de prensa digital española: el proyecto Neoveille ». In Patin S (dir.) Política y discurso: viejas y nuevas representaciones. Núm 6. Valencia : Universitat Politècnica de València.

Présentation vidéo de la plateforme Néoveille
Présentation vidéo de l'interface publique