Analyse syntaxique et sémantique

En dépit des progrès accomplis, l’analyse des textes soulève toujours de nouveaux défis, du fait du volume et de la diversité des textes à analyser, mais aussi du niveau d’analyse attendu : au-delà de l’analyse de surface, le projet de l’équipe RCLN est de faire de l’analyse en syntaxe profonde et de combiner analyses syntaxique et sémantique.

Analyse syntaxique et réseaux de neurones

Les récents progrès des réseaux neuronaux et leur utilisation en traitement automatique des langues entraînent la résurgence d’un vieux débat : faut-il passer par des structures plus ou moins implicites pour l’analyse de productions langagières ou peut-on s’en tenir à des observations de surface ?

L’objectif consiste à adapter les réseaux de neurones à l’analyse syntaxique, ce qui constitue un défi parce que les sorties des analyses syntaxiques qui sont visées sont en général des structures plus complexes que de simples séquences d’étiquettes (arbres en constituants ou en dépendances, voire graphes). Plusieurs approches seront étudiées. Il s’agira d’une part, de transformer nos algorithmes (par exemple ceux de l’analyseur Lorg, cf. section 3.4) en utilisant des réseaux de neurones pour transformer les données d’entrée ou dans l’évaluation des hypothèses lors de la création des structures d’analyse. Dans ce cas, on utilisera des réseaux récurrents ou à convolution qui sont très utilisés comme extracteurs de descripteurs. De nouvelles architectures reposant uniquement sur des distributions calculées dynamiquement, dits à attention, sont également prometteuses [6].

Une autre piste consiste à concevoir des architectures neuronales adaptées à la prédiction de structures arborées, comme cela a été fait pour la prédiction de structures séquentielles [7, 4], mais la difficulté reste l’incorporation de telles structures aux algorithmes d’analyse en programmation dynamique. La direction de recherche inverse sera également envisagée. Plutôt que de chercher à prédire des structures arborescentes issues de modèles linguistiques théoriques, il nous semble plus intéressant, dans la lignée des travaux de [9], d’enrichir les informations syntaxiques extraites, qui paraissent plus pertinentes pour les applications de plus haut niveau (analyse sémantique, traduction). Il est d’ailleurs également possible d’imaginer une reconstruction a posteriori de structures, qui serait contrainte par ces informations séquentielles, si celles-ci sont suffisamment précises, en capitalisant sur les travaux de l’équipe en optimisation contrainte pour le TAL. Les réseaux à énergie pour la prédiction structurée [2] reposent d’ailleurs sur ce type d’hypothèse.

De la syntaxe aux applications

Outre la quête de toutes les informations syntaxiques que l’on est capable d’extraire d’un texte, il est intéressant de regarder ce que l’analyse syntaxique peut apporter aux applications.

En lien avec les autres axes de l’équipe RCLN, il s’agit d’abord d’identifier les informations syntaxiques les plus utiles, en notant qu’il est vraisemblable que les réponses varient selon l’application ciblée (extraction de relations, d’entités, analyse sémantique…).

On peut aussi tenter d’appliquer des méthodes d’analyse syntaxique à d’autres problèmes. Le prisme de l’optimisation combinatoire s’est révélé extrêmement utile pour résoudre des problèmes difficiles en analyse syntaxique. Forte de l’expérience acquise dans l’utilisation de techniques d’optimisation, grâce aux interactions avec l’équipe AOC, l’équipe RCLN envisage d’en étendre l’application, soit pour effectuer différentes analyses conjointement plutôt que séquentiellement (recherche des unités linguistiques : tokens, expressions polylexicales, entités), soit pour utiliser des modèles sémantiques avec lesquels le problème de l’analyse est intrinsèquement complexe, comme par exemple les grammaires HRG (par remplacement d’hyper-arêtes) [3].

Syntaxe et sémantique distributionnelle

Une problématique complémentaire concerne l’apport de l’analyse syntaxique pour la sémantique distributionnelle [1, 8]. Ce type d’analyse est une piste de recherche prometteuse pour accéder à la sémantique sous-jacente des langues, avec de nombreuses applications (induction de sens et de réseaux sémantiques, suivi de l’évolution sémantique des lexies en diachronie, etc. (voir section 2.3.3). Les words embeddings[5] permettent actuellement de détecter les lexies sémantiquement similaires sur la base de contextes partagés. Mais les méthodes actuelles ne permettent pas de distinguer les différentes relations sémantiques sousjacentes à cette notion de similarité (analogie, synonymie, hyperonymie, hyponymie, antonymie, etc.) ni de traiter la polysémie.

Afin de repérer plus finement la structuration sémantique du lexique et produire automatiquement des ressources exploitables, nous comptons approfondir plusieurs pistes déjà ouvertes dans des travaux précédents (voir section2.1.3). Une des pistes consistera à étudier l’apport de la syntaxe afin d’identifier des descripteurs, permettre une classification automatique des résultats de l’analyse distributionnelle et dégager les relations sémantiques sous-jacentes.