Acquisition de connaissances à partir de textes

La découverte de connaissances reste un enjeu majeur pour interpréter, exploiter ou explorer les corpus à l’échelle du web sémantique et du web des données. L’équipe compte poursuivre ses travaux sur cet axe en développant des méthodes d’acquisition à partir de sources textuelles hétérogènes, mais aussi à partir d’ontologies et données issues du web sémantique, tout en permettant la réutilisation des connaissances extraites et leur adaptation aux domaines. Les approches développées combinent analyse linguistique, exploitation des connaissances existantes et techniques d’apprentissage et de fouille de données en mettant l’accent sur les approches non supervisées en domaine ouvert.

Construction de bases de connaissances à partir d’alignements entre ontologies de référence

Les données sont publiées sur le Web à l’aide des technologies du Web Sémantique dans le but de simplifier la découverte de données et de répondre à la problématique d’intégration de données hétérogènes. Pour pouvoir intégrer plusieurs jeux de données, les mettre dans un format informatique interopérable ne suffit pas. Dans un souci d’intégration efficace, des jeux de données distincts doivent être liés entre eux par le biais de données pivot. Des ontologies de référence définissant des données pivot commencent à être publiées sur le Linked Open Data (LOD) ou en français Web de données liées. Elles sont néanmoins loin d’être couvrantes et nous sommes toujours amenés à construire de nouvelles bases de connaissances qui permettent de couvrir nos cas d’usage spécifiques. L’équipe RCLN ambitionne de proposer de nouvelles méthodes pour produire des bases de connaissances complexes qui intègrent des ontologies de référence. La difficulté consiste à réaliser des correspondances, non pas en aveugle, mais en prenant en compte les cas d’usage et les sources d’information associées. Le problème revient à une mise en correspondance N-aire qui concerne à la fois des entités sémantiques et les entités des sources. Cette mise en correspondance s’appuiera sur des patrons de conception ontologiques ainsi que des anti-patrons. Les patrons de conceptions permettent de diriger la méthode d’acquisition des relations N-aires. Les anti-patrons permettent de nettoyer les candidats de relations N-aires quand l’existence de ces relations mettent en évidence des incohérences au sein de la base de connaissances. Le domaine privilégié est celui de l’agriculture en collaboration avec l’IRSTEA qui dispose de cas d’usages et d’experts dans ce domaine.

Enrichissement de ressources

Les ressources sémantiques disponibles manquent souvent de relations de domaine riches. Les approches d’extraction de relations sont souvent calibrées pour un domaine. L’équipe RCLN aborde cette problématique par une approche d’apprentissage automatique non supervisée où le processus d’extraction d’informations est guidé par le corpus, l’objectif étant de pouvoir l’appliquer à différents domaines de spécialité. Différents types d’information sont disponibles : la nature des entités, la séquence de mots entre elles, leurs relations syntaxiques dans le texte. L’équipe RCLN souhaite explorer les différentes combinaisons de ces informations en s’appuyant sur les techniques de fouille de motifs séquentiels. Les premières expériences confirment que l’approche par fouille de motifs permet de découvrir et identifier de nouveaux types de relations sémantiques. Le but est de générer automatiquement des patrons syntaxiques capables de caractériser les différentes sortes de relations et permettraient à terme de les étiqueter.

L’équipe RCLN envisage également de combiner les travaux en fouille de texte aux travaux en fouille de données, notamment la fouille de graphes (abstraction de graphe), menés dans l’équipe A3. Il s’agit à la fois d’affiner les relations sémantiques découvertes et de les étendre en découvrant de nouveaux types de liens.

Extraction de ressources et variations linguistiques

Les travaux de l’équipe sur l’adaptation de méthodes de fouille de données et d’apprentissage ont permis d’obtenir des résultats prometteurs dans le champ de la linguistique de corpus. En stylistique, nous avons montré que des patrons caractéristiques d’un auteur, ou genre littéraire, pouvaient être découverts par l’extraction de motifs émergents. Il s’agit d’étendre la méthode par la prise en compte d’indices variés comme la topologie des motifs en corpus, et différents niveaux d’annotation (lexicale, syntaxique, sémantique. . . ). À partir des premiers travaux du projet Néoveille sur la détection automatique de néologies de forme, l’équipe envisage de combiner les approches de fouille de motifs (permettant de découvrir les séquences typiques d’une lexie), et des approches de type sémantique distributionnelle (permettant d’obtenir une vision des lexies similaires à une période donnée) afin de repérer et caractériser les néologies sémantiques. Ce travail permettra de s’attaquer à la problématique de l’induction de sens à partir de corpus.

Un des buts sera de produire des ressources lexicales sémantiques de type Framenet à partir de gros corpus.