Plate-forme d'outils TAL pour les SHS

De wikiRcln
Aller à : navigation, rechercher

Résumé

Consortium

Le consortium regroupera l’ensemble des acteurs du TAL au sein de SPC, ainsi qu’un certain nombre de laboratoires de linguistique expérimentés dans l’utilisation de l’outillage informatique.

LIPN-RCLN (Paris 13): apprentissage automatique, analyse automatique de textes, outil de datamining, outil de récupération et de préparation de corpus, veille néologique

ALPAGE (Paris 7): ensemble du traitement automatique de l’écrit,

LLF (Paris 7): analyseurs morphosyntaxiques, syntaxiques

Clesthia (Paris 3): analyse de corpus oraux, lexicométrie, textométrie (cf projet ANR Diachr-Oral soumis)

Laboratoire de Phonétique et de phonologie (Paris 3) : analyse des corpus oraux

ERTIMM (INALCO): linguistique de corpus, analyse des langues rares

CLILLAC-ARP (paris 7) : linguistique de corpus, traitements des corpus oraux

LDI (Paris 13): constitution de ressources linguistiques pour le TAL

LACITO (INALCO) : analyses des langues à tradition orale

LLACAN (INALCO) : analyse des langues d’Afrique noire

SEDYL (INALCO) : constitution de corpus des langues du monde, analyse sociolinguistique

Parmi les laboratoires cités plus haut, certains sont des fournisseurs de technologies, d’autres sont des utilisateurs expérimentés des outils informatiques.

Cas d’utilisation par les acteurs SHS actuellement identifiés : CLESTHIA (analyse des genres et découverte de spécificités textuelles sur corpus littéraire et oraux), CLILLAC-ARP (collecte de corpus sur web, préparation, recherche terminologique dans corpus spécialisés), ERTIM (chaîne d’analyse pour langues peu dotées), LDI (projet Bagage : portail collaboratif d’ouvrages de référence en HALL), projet Neoveille (collecte de corpus rss, veille néologique sur corpus journalistique)

Objectifs

  • accès aux outils TAL pour la communauté SHS et au-delà au public
  • articulation cet outillage avec des formations type projet IDEX INFOSHS
  • fédération des travaux de SPC en TAL
  • valorisation des travaux en SHS de SPC via une plateforme commune

L’objectif principal de ce projet structurant pour le pôle SHS de SPC est de rendre accessibles des outils de Traitement Automatique des Langues (constitution de corpus, analyse linguistique et statistique, interrogation, exploration et visualisation) à la communauté SHS dans son ensemble via la création d’une plateforme web conviviale qui permette à l’ensemble de la communauté de pouvoir exploiter les corpus qui sont la matière brute de leur recherche. En dehors de proposer un outillage informatique bénéfique pour la communauté SHS en proposant les outils de traitement état-de-l’art, les partenaires du projet développeront de nouvelles fonctionnalités par rapport à l’existant.

Les outils incluront les fonctionnalités clés suivantes : méthodes de collecte de corpus et gestionnaire web de corpus, analyse linguistique automatique des corpus (segmentation, reconnaissance d’entités nommées, unités polylexicales, analyse morphosyntaxique, syntaxique, sémantique),analyses statistique (lexicométrie, analyse distributionnelle, textométrie), interrogation, navigation et visualisation des résultats. L’idée est de proposer les outils aujourd’hui incontournables ainsi que des fonctionnalités nouvelles distinguant SPC.

l’idée est également de fédérer les travaux de recherche en TAL au sein de SPC sur l’analyse des textes : modules d’analyse linguistique pour des langues mal dotées, développement d’outils de calcul distributionnel, fouille de motifs, etc. Dans la phase de mise en place de l’interface web, l’accent sera mis sur la collaboration avec des usagers qualifiés des corpus (INALCO pour langues rares , CLILLAC-ARP sur discours spécialisés; CLESTHIA sur la stylistique, caractérisation des genres textuels; voir aussi autres projets déposés pour pôle HALL)


Un volet formation sera également mis en place, en continuité du projet IDEX INFOSHS, afin de former les acteurs SHS aux outils informatiques développés et à leur utilisation.

Le projet proposé permettra d’accroître sensiblement la visibilité, l’attractivité et la réputation des SHS puisque l’outil proposé n’est actuellement disponible, au niveau mondial, que de manière partielle au Royaume-Uni. De plus, de manière mécanique, un tel outillage à disposition des acteurs SHS de SPC leur permettra de renforcer leurs recherches sur des ressources numériques.

Etat des lieux

L’outillage informatique des différentes disciplines scientifiques est encore disparate : si les sciences dites “dures” sont dorénavant quasiment systématiquement équipées (formation des chercheurs, utilisation systématique de l’informatique pour les expérimentations sur données observables), les sciences humaines et sociales sont encore insuffisamment outillées.

Cet état de fait a plusieurs raisons :

  • les sciences humaines et sociales privilégient encore l’expertise humaine à l’utilisation d’outils informatiques qui sont, il est vrai, encore perfectibles; pourtant, aujourd’hui la masse de données oblige à un minimum d’outillage informatique, notamment sur des tâches qui clairement ne sont pas humainement réalisables (collecte de corpus, analyse de grandes masses de données, exploration hypertextuelle, etc.);
  • chaque acteur, laboratoire ou pôle de recherche développe ses propres outils, qui restent souvent à l’état de prototypes et sont donc difficilement exportables dans d’autres contextes et utilisables par des non-spécialistes;
  • les outils “génériques” qui ont été développées ne sont pas simples à utiliser, ni conviviaux (exemples : Treetagger, IMS Corpus Workbench, UIMA…), ce qui est un frein à leur pénétration dans le domaine.

Mais plusieurs phénomènes justifient maintenant la pénétration de cet outillage dans les sciences humaines et sociales, ainsi que des développements soutenus au sein de SPC  :

  • depuis une quinzaine d’années maintenant, les corpus numériques disponibles à la recherche se sont multipliés et nécessitent pour être exploités des outils automatiques, pour y accéder et pour, minimalement, en faire des analyses automatiques initiales ;
  • la recherche en Traitement automatique des langues propose désormais des techniques et outils mûrs, dans un état de développement suffisant pour être distribués et ré-utilisés par toute la communauté SHS travaillant sur corpus;
  • la communauté TAL et linguistique de corpus est très bien représentée dans SPC et ses travaux doivent être valorisés : citons notamment le Labex EFL, le mieux noté par les instances nationales parmi les labex financés par SPC; les différents laboratoires de TAL ou de linguistique de corpus de SPC (INALCO : ERTIM, LACITO, SEDYL, LLACAN,; P7 : ALPAGE, LLF, CLILLAC-ARP; P3 : CLESTHIA; Laboratoire de Phonétique et de Phonologie; P13 : LIPN-RCLN, LDI) ; les nombreux laboratoires de linguistique de SPC utilisent de plus dorénavant très majoritairement l’outil informatique, et il faut accompagner ce mouvement car cette communauté peut offrir à toute la communauté SHS ses acquis.


C’est afin de combler ces lacunes et accompagner ce mouvement que ce projet propose la mise en place d’une plateforme commune d’outils qui aura les caractéristiques suivantes :

  • convivialité et simplicité d’utilisation des outils, via une interface web, ce qui est essentiel afin de ne pas rebuter l’utilisation des outils par les usagers SHS;
  • outils état-de-l’art en traitement de corpus, afin de proposer les fonctionnalités incontournables d’exploitation des données numériques notamment dites non structurées;
  • développement de fonctionnalités nouvelles, liées à des problématiques de TAL ou encore à des problématiques spécifiques des acteurs SHS, avec pour objectif de développer la visibilité des recherches menées dans SPC autour de ces thématiques.


Projets français et internationaux à considérer pour se positionner Du point de vue des acteurs, il faut positionner ce projet par rapport à d’autres initiatives.

Du point de vue de l’axe 6 (ressources linguistiques) du Labex EFL, les objectifs de cet axe transversal sont le développement de ressources et d’outils pour la recherche en Traitement Automatique des langues et en linguistique. En complément, l’objectif de la présente proposition est de diffuser l’utilisation des outils TAL à tous les acteurs SHS travaillant sur corpus, en privilégiant la simplicité de l’utilisation pour des non spécialistes.

Consortium Corpus écrits (ILF): ce projet n’a pas à ce jour produit des ressources en nombre suffisant pour pouvoir établir clairement un positionnement de notre projet vis-à-vis de celui-ci. Cependant il semble que ce projet se limite à lister les ressources et outils disponibles. Sur le site web (http://corpusecrits.huma-num.fr/travaux-2/), il est difficile de se faire une idée des productions du consortium.


Portail Ortholang (ATILF) : ce portail, développé par l’ATILF, propose de regrouper sous une même plateforme différentes ressources et différents outils. Notre proposition cherche à fournir aux usagers SHS une plateforme-outil directement utilisable.

Outils existants dans la communauté TAL et linguistique de corpus UIMA IMS CWB SketchEngine etc.

Limites générales : Ces outils ne sont pas simples à prendre en main pour des non-spécialistes, notamment les fonctionnalités de recherche (IMX CWB, UIMA), d’annotation etc.


Projets financés par SPC sur lesquels s’appuyer NEOVEILLE : ce projet, financé par SPC de 2015 à 2018, a pour objectif de repérer, d’analyser et de suivre les néologismes dans de gros corpus journalistiques en sept langues (français, portugais du Brésil, polonais, tchèque, grec, chinois et russe). Le consortium regroupe quatre laboratoires de SPC (LIPN-RCLN, LDI, ERTIM, CLILLAC-ARP), ainsi que l’université de Sao Paolo et le groupe international EMPNEO. ce projet développe actuellement de gros corpus sur le web, qui seront analysés linguistiquement et statistiquement, avec une interface web d’interrogation et de fouille des données textuelles à destination des linguistes du consortium. INFOSHS : ce projet IDEX formations innovantes, financé en 2015-2016, propose des formations en outillage informatique pour les doctorants et masters en Sciences Humaines et Sociales de SPC, et il pourra servir de base à des formations élargies aux différents acteurs de SPC en SHS.

Programme scientifique

Références