Projet Formation Continue en TAL

De wikiRcln
Révision de 24 février 2015 à 18:00 par Jgflores (discussion | contributions) (Introduction au traitement du langage naturel en Python.NLTK)

(diff) ← Version précédente | Voir la version courante (diff) | Version suivante → (diff)
Aller à : navigation, rechercher

Techniques (ou Technologies) en Traitement Automatique des Langues : formations courtes à destination des professionnels dans le cadre de la formation continue

Présentation

Le Traitement Automatique des Langues (TAL) est un domaine d'activité qui s'est développé avec l'essor du web et l'abondance des documents électroniques. D'abord cantonnée à la recherche, et partagée entre la linguistique, la statistique et l'informatique, cette discipline a pénétré le monde économique, avec des applications multiples : correcteurs orthographiques, synthèse de la parole, moteurs de recherche, traduction automatique, fouille de données, acquisition de connaissances, web sémantique, etc.

Il s'agit d'un domaine où les travaux de la recherche peuvent impacter rapidement les applications mises à disposition par les acteurs économiques. C'est dans le but de permettre à ces acteurs de rester à jour des connaissances que cette série de séminaires portant sur les techniques en TAL est créée.

Ces séminaires s'adressent aux acteurs (consultants, ingénieurs, techniciens) des entreprises liées au secteur de l'analyse de contenus voulant mettre à jour leurs connaissances et leurs pratiques pour rester à la pointe de l'innovation.

Il s'agit donc de proposer aux professionnels des points techniques en Traitement Automatique des Langues, en prenant appui sur les briques technologiques disponibles et en montrant leur valeur ajoutée sur des applications diverses.

Etant donné l'évolution rapide en TAL, les séminaires proposés pourront évoluer au cours du temps. Pour l'année 2014, nous proposons un cycle de N séminaires focalisant sur la compréhension automatique des textes écrits. Chaque séminaire est indépendant des autres, sauf mention contraire.

Commentaire Adl : le terme de "séminaire" me paraît pas très vendeur.

Modalités pratiques

Une salle informatique dédiée sera mise à disposition dans les locaux de l'université Paris 13 Sorbonne Paris Cité.

Chaque séminaire durera six heures sur une journée (sauf mention contraire) et reposera sur une pédagogie interactive combinant formation et mise en application des connaissances.

A l'issue de la formation, une validation sera effectuée sous forme d'un QCM de contrôle des connaissances et d'un exercice pratique à rendre à l'enseignant sous forme électronique une semaine à quinze jours maximum après la fin du cours.

Un certificat d'assiduité sera délivré à chaque étudiant, et un certificat d'aptitude à ceux qui auront validé le QCM et l'exercice pratique.

Cible de la formation

Consultants en SSII cherchant des solutions en Content Management

Techniciens et ingénieurs dans les entreprises de TAL / Content Management / Document Engineering


Formations proposées

Introduction au Traitement Automatique des Langues

Exposé de la problématique, accroche, voir exemple cours précédent

Type

brique technologique / Application

Objectif général de la formation

liste des objectifs de manière succincte

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script


Durée

6 h? / 12h?

Formateur


Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.


Remarque : cette formation est une mise à niveau pour grands débutants.

Création de corpus à partir des données du web

La première étape d'un traitement linguistique sur des textes est la récupération de textes, qu'on appellera corpus (ou corpus de documents).La solution la plus immédiate consiste à récupérer les documents manuellement. Cette procédure permet de tester préalablement des traitements linguistiques, mais trouve vite ces limites, au moins pour les deux raisons suivantes : temps nécessaire pour construire le corpus ; traitements individuels des fichiers pour résoudre la problématique d'unification des formats, des encodages, etc.

Nous présentons dans ce cours différentes manières de constituer automatiquement un corpus de documents, à la fois programmatiquement (via un langage de script type PERL ou PYTHON), mais aussi, quand ils existent, en utilisant des logiciels dédiés à cette tâche.

La constitution d'un corpus pour le TAL nécessite de répondre à trois questions :

  • Quel est l'objectif visé par la constitution de ce corpus ? La réponse à cette question conditionne les documents qui seront visés ;
  • Où trouver le corpus, et comment le récupérer ? La réponse à cette question permettra d'identifier les différents outils techniques nécessaires et de fixer les objectifs pratiques ;
  • Quels traitements sont nécessaires afin d'obtenir une sortie unifiée des différents documents ? Ce questionnement ressortit au format des documents à générer, de l'encodage choisi, des informations qu'on souhaite conserver dans les documents bruts et de l'utilisation ultérieure du corpus.


Type

brique technologique / Application

Objectif général de la formation

Maîtrise de l'état de l'art sur la création de corpus à partir du web

Mise en œuvre des logiciels dans des applications spécifiques

Plan du cours

  • Présentation générale de la tâche
    1. Notion de corpus
    2. Corpus existants
  • Récupération de corpus sur Internet
    1. par programme : wget / LWP:UserAgent (Perl)
    2. par outil préexistant : httrack
    3. récupération d'articles de presse via fils de presse RSS (Perl)
  • Gestion de l'encodage des documents
    1. rapide historique : de l'ASCII à Unicode
    2. formats standards : famille des encodages ISO-8859, UTF-8
    3. formats spécifiques aux langues asiatiques
    4. applications : conversion d'encodage, ouverture de fichier
  • Traitements des formats de fichiers
    1. Fichiers textes, RTF
    2. MS Word, Open Office
    3. PDF
    4. HTML, XML et technologies associées
    5. gestion des encodages et conversions vers txt et xml (Perl)
  • Nettoyage et zonage des fichiers
    1. exemples de documents à nettoyer
    2. zonage et techniques utilisables

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script


Durée

6 heures

Formateur

Emmanuel Cartier

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Annotation des textes : enjeux, problématiques, solutions

Exposé de la problématique, accroche, voir exemple cours précédent

Type

brique technologique / Application

Objectif général de la formation

liste des objectifs de manière succincte

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script


Durée

6 h? / 12h?

Formateur

Adeline Nazarenko?

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.


Extraction d'information : expressions régulières

Les documents numériques, une fois récupérés, peuvent être soumis à différents traitements linguistiques. La première étape est la segmentation du texte en mots, en phrases et en unités discursives (paragraphes, sections, etc.). On peut dès lors mettre en place une extraction d'informations, pour repérer par exemple des entités nommées, des relations sémantiques etc.

L'objectif de cette formation est de présenter en détail l'extraction d'information au moyen des expressions régulières, qui sont un métalangage très vite apparu dans le domaine, et qui continue à être utilisé de manière très fréquente, de par sa puissance expressive et sa généralité. Nous prendrons appui sur la tâche d'extraction des entités nommées.

Nous aborderons dans ce cours le langage des expressions régulières de manière approfondie (des motifs simples aux motifs complexes). Nous évoquerons également la méthodologie à suivre pour mettre en place les motifs : mise en place d'un corpus de test et d'évaluation ; utilisation des mesures de précision, rappel et F-mesure. Nous détaillerons enfin un certain nombre d'outils et de techniques permettant d'accélérer la mise au point des motifs : métalangages basés sur les expressions régulières et adaptés au TAL (TokensRegexp), bootstrapping.


Type

brique technologique / Application

Objectif général de la formation

Maîtrise des expressions régulières pour repérer des informations ciblées dans les textes Maîtrise d'une méthodologie pour mettre en place les motifs répondant à une tâche d'extraction spécifique maîtrise des outils et techniques d'optimisation et d'accélération de la mise en place des motifs

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script

Durée

6 h? / 12h?

Formateur

Emmanuel Cartier

Adeline Nazarenko

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Analyse morphosyntaxique des textes : enjeux, problématiques, solutions

Exposé de la problématique, accroche, voir exemple cours précédent

Type

brique technologique / Application

Objectif général de la formation

liste des objectifs de manière succincte

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script

Durée

6 h? / 12h?

Formateur

Emmanuel Cartier? Joseph le Roux? Fabrice Issac?

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Chunking / analyse syntaxique des textes  : enjeux, problématiques, solutions ( ???)

Exposé de la problématique, accroche, voir exemple cours précédent

Type

brique technologique / Application

Objectif général de la formation

liste des objectifs de manière succincte

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script

Durée

6 h? / 12h?

Formateur

Joseph Le Roux?

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Analyse sémantique des textes : enjeux, problématiques, solutions

Exposé de la problématique, accroche, voir exemple cours précédent Remarque : initialement ce cours était divisé en deux parties : Semantic Role Labelling et Word Sense Disambiguation), il serait donc possible de prévoir deux séances pour ce cours.

Type

brique technologique / Application

Objectif général de la formation

liste des objectifs de manière succincte

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script


Durée

6 h? / 12h?

Formateur

Lucie Barque

Davide Buscaldi

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Modèles (probabilistes) du langage

Exposé de la problématique, accroche, voir exemple cours précédent

Type

brique technologique / Application

Objectif général de la formation

liste des objectifs de manière succincte

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script


Durée

6 h? / 12h?

Formateur

Joseph Le Roux

Antoine Rozenkopf

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Statistiques lexicales

Exposé de la problématique, accroche, voir exemple cours précédent

Type

brique technologique / Application

Objectif général de la formation

liste des objectifs de manière succincte

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script


Durée

6 h? / 12h?

Formateur

Adeline Nazarenko

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Recherche d'information

La recherche d'information consiste à sélectionner dans une collection des informations pertinentes répondant au besoin d'un utilisateur exprimé sous forme d'une requête. Nous nous intéressons en priorité à la recherche d'information textuelle.

L'objectif de cette formation est de donner une vision claire du fonctionnement d'un moteur de recherche. Nous présenterons quelques moteurs et plate-formes open source ainsi que les dernières techniques pour des fonctionnalités avancées.

Type

Application

Objectif général de la formation

  • Compréhension du fonctionnement d'un moteur de recherche
  • Mise en place et paramétrage d'un moteur de recherche
  • Maîtrise de fonctionnalités de recherche avancées

Plan du cours

  • Présentation des différents modèles de RI
    1. Indexation et représentation
    2. Modèles de RI standards
  • Présentation de moteurs et plate-formes de RI Open Source
    1. Terrier
    2. Lucene, Solr
    3. YaSemIR
  • Comparaison et Évaluation de moteurs
    1. Critères d'évaluation
    2. Évaluation comparative sur un cas d'usage
  • Fonctionnalités avancées
    1. recherche par facettes
    2. recherche structurée
    3. recherche sémantique
    4. visualisation

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de programmation


Durée

12h

Formateur

Davide Buscaldi

Haïfa Zargayouna

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Traduction automatique

Exposé de la problématique, accroche, voir exemple cours précédent

Type

brique technologique / Application

Objectif général de la formation

liste des objectifs de manière succincte

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script


Durée

6 h? / 12h?

Formateur

Nadi Tomeh

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Ontologies / Web Sémantique

Exposé de la problématique, accroche, voir exemple cours précédent

Type

brique technologique / Application

Objectif général de la formation

liste des objectifs de manière succincte

Plan du cours

Plan à détailler

Logiciels et ressources utilisées

Pré-requis

Connaissance et pratique minimale d'un langage de script


Durée

6 h? / 12h?

Formateur

Aldo Gangemi

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Introduction au traitement du langage naturel en Python.NLTK

Cours d'introduction au traitement automatique des langues avec la boîte à outils NLTK (Natural Language Toolkit) en langage de programmation Python.

Type

brique technologique / Application

Objectif général de la formation

Donner à l'élève une première expérience pratique des problèmes à résoudre traitement automatique des langues.

Plan du cours

  • Tokenization
  • Expressions rationnelles
  • N-grammes
  • Annotation morpho-syntactique
  • Analyse lexicale
  • Extraction d'entités nommées

Logiciels et ressources utilisées

Python, NLTK

Pré-requis

Connaissance et pratique minimale du langage Python


Durée

12h

Formateur

Jorge Garcia Flores

Public concerné

consultants, ingénieurs et techniciens en TAL / SSII


Matériel nécessaire

1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Miscellaneous

Contacts à prendre pour « publicité » (à compléter): Cap Digital, associations professionnelles, entreprises du domaine, Discussion préalable avec formation continue : a priori UFR LSHS porterait le projet (demander à Fabrice d'intervenir), avec collaboration entre UFR LSHS et UFR informatique, laboratoire LIPN – équipe RCLN discuter avec FC des modalités de reversement des gains éventuels, en dehors des cours CM pour enseignants-chercheurs.