equipes:rcln:ancien_wiki:projets:projet_formation_continue_en_tal

Projet Formation Continue en TAL

Techniques (ou Technologies) en Traitement Automatique des Langues : formations courtes à destination des professionnels dans le cadre de la formation continue

Le Traitement Automatique des Langues (TAL) est un domaine d'activité qui s'est développé avec l'essor du web et l'abondance des documents électroniques. D'abord cantonnée à la recherche, et partagée entre la linguistique, la statistique et l'informatique, cette discipline a pénétré le monde économique, avec des applications multiples : correcteurs orthographiques, synthèse de la parole, moteurs de recherche, traduction automatique, fouille de données, acquisition de connaissances, web sémantique, etc.

Il s'agit d'un domaine où les travaux de la recherche peuvent impacter rapidement les applications mises à disposition par les acteurs économiques. C'est dans le but de permettre à ces acteurs de rester à jour des connaissances que cette série de séminaires portant sur les techniques en TAL est créée.

Ces séminaires s'adressent aux acteurs (consultants, ingénieurs, techniciens) des entreprises liées au secteur de l'analyse de contenus voulant mettre à jour leurs connaissances et leurs pratiques pour rester à la pointe de l'innovation.

Il s'agit donc de proposer aux professionnels des points techniques en Traitement Automatique des Langues, en prenant appui sur les briques technologiques disponibles et en montrant leur valeur ajoutée sur des applications diverses.

Etant donné l'évolution rapide en TAL, les séminaires proposés pourront évoluer au cours du temps. Pour l'année 2014, nous proposons un cycle de N séminaires focalisant sur la compréhension automatique des textes écrits. Chaque séminaire est indépendant des autres, sauf mention contraire.

Commentaire Adl : le terme de “séminaire” me paraît pas très vendeur.

Une salle informatique dédiée sera mise à disposition dans les locaux de l'université Paris 13 Sorbonne Paris Cité.

Chaque séminaire durera six heures sur une journée (sauf mention contraire) et reposera sur une pédagogie interactive combinant formation et mise en application des connaissances.

A l'issue de la formation, une validation sera effectuée sous forme d'un QCM de contrôle des connaissances et d'un exercice pratique à rendre à l'enseignant sous forme électronique une semaine à quinze jours maximum après la fin du cours.

Un certificat d'assiduité sera délivré à chaque étudiant, et un certificat d'aptitude à ceux qui auront validé le QCM et l'exercice pratique.

Consultants en SSII cherchant des solutions en Content Management

Techniciens et ingénieurs dans les entreprises de TAL / Content Management / Document Engineering

Exposé de la problématique, accroche, voir exemple cours précédent

Type brique technologique / Application
Objectif général de la formation liste des objectifs de manière succincte
Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Remarque : cette formation est une mise à niveau pour grands débutants.

La première étape d'un traitement linguistique sur des textes est la récupération de textes, qu'on appellera corpus (ou corpus de documents).La solution la plus immédiate consiste à récupérer les documents manuellement. Cette procédure permet de tester préalablement des traitements linguistiques, mais trouve vite ces limites, au moins pour les deux raisons suivantes : temps nécessaire pour construire le corpus ; traitements individuels des fichiers pour résoudre la problématique d'unification des formats, des encodages, etc.

Nous présentons dans ce cours différentes manières de constituer automatiquement un corpus de documents, à la fois programmatiquement (via un langage de script type PERL ou PYTHON), mais aussi, quand ils existent, en utilisant des logiciels dédiés à cette tâche.

La constitution d'un corpus pour le TAL nécessite de répondre à trois questions :

  • Quel est l'objectif visé par la constitution de ce corpus ? La réponse à cette question conditionne les documents qui seront visés ;
  • Où trouver le corpus, et comment le récupérer ? La réponse à cette question permettra d'identifier les différents outils techniques nécessaires et de fixer les objectifs pratiques ;
  • Quels traitements sont nécessaires afin d'obtenir une sortie unifiée des différents documents ? Ce questionnement ressortit au format des documents à générer, de l'encodage choisi, des informations qu'on souhaite conserver dans les documents bruts et de l'utilisation ultérieure du corpus.
Type brique technologique / Application
Objectif général de la formation

Maîtrise de l'état de l'art sur la création de corpus à partir du web

Mise en œuvre des logiciels dans des applications spécifiques

Plan du cours
  • Présentation générale de la tâche
    1. Notion de corpus
    2. Corpus existants
  • Récupération de corpus sur Internet
    1. par programme : wget / LWP:UserAgent (Perl)
    2. par outil préexistant : httrack
    3. récupération d'articles de presse via fils de presse RSS (Perl)
  • Gestion de l'encodage des documents
    - rapide historique : de l'ASCII à Unicode
    - formats standards : famille des encodages ISO-8859, UTF-8
    - formats spécifiques aux langues asiatiques
    - applications : conversion d'encodage, ouverture de fichier
  • Traitements des formats de fichiers
    1. Fichiers textes, RTF
    2. MS Word, Open Office
    3. PDF
    4. HTML, XML et technologies associées
    5. gestion des encodages et conversions vers txt et xml (Perl)
  • Nettoyage et zonage des fichiers
    1. exemples de documents à nettoyer
    2. zonage et techniques utilisables
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 heures
Formateur Emmanuel Cartier
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Exposé de la problématique, accroche, voir exemple cours précédent

Type brique technologique / Application
Objectif général de la formation liste des objectifs de manière succincte
Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur Adeline Nazarenko?
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Les documents numériques, une fois récupérés, peuvent être soumis à différents traitements linguistiques. La première étape est la segmentation du texte en mots, en phrases et en unités discursives (paragraphes, sections, etc.). On peut dès lors mettre en place une extraction d'informations, pour repérer par exemple des entités nommées, des relations sémantiques etc.

L'objectif de cette formation est de présenter en détail l'extraction d'information au moyen des expressions régulières, qui sont un métalangage très vite apparu dans le domaine, et qui continue à être utilisé de manière très fréquente, de par sa puissance expressive et sa généralité. Nous prendrons appui sur la tâche d'extraction des entités nommées.

Nous aborderons dans ce cours le langage des expressions régulières de manière approfondie (des motifs simples aux motifs complexes). Nous évoquerons également la méthodologie à suivre pour mettre en place les motifs : mise en place d'un corpus de test et d'évaluation ; utilisation des mesures de précision, rappel et F-mesure. Nous détaillerons enfin un certain nombre d'outils et de techniques permettant d'accélérer la mise au point des motifs : métalangages basés sur les expressions régulières et adaptés au TAL (TokensRegexp), bootstrapping.

Type brique technologique / Application
Objectif général de la formation

Maîtrise des expressions régulières pour repérer des informations ciblées dans les textes

Maîtrise d'une méthodologie pour mettre en place les motifs répondant à une tâche d'extraction spécifique

Maîtrise des outils et techniques d'optimisation et d'accélération de la mise en place des motifs

Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur
  • Emmanuel Cartier
  • Adeline Nazarenko
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Exposé de la problématique, accroche, voir exemple cours précédent

Type brique technologique / Application
Objectif général de la formation liste des objectifs de manière succincte
Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur Emmanuel Cartier? Joseph le Roux? Fabrice Issac?
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Exposé de la problématique, accroche, voir exemple cours précédent

Type brique technologique / Application
Objectif général de la formation liste des objectifs de manière succincte
Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur Joseph Le Roux?
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Exposé de la problématique, accroche, voir exemple cours précédent Remarque : initialement ce cours était divisé en deux parties : Semantic Role Labelling et Word Sense Disambiguation), il serait donc possible de prévoir deux séances pour ce cours.

Type brique technologique / Application
Objectif général de la formation liste des objectifs de manière succincte
Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur
  • Lucie Barque
  • Davide Buscaldi
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Exposé de la problématique, accroche, voir exemple cours précédent {| class=“wikitable centre” width=“100%”

Type brique technologique / Application
Objectif général de la formation liste des objectifs de manière succincte
Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur
  • Joseph Le Roux
  • Antoine Rozenkopf
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Exposé de la problématique, accroche, voir exemple cours précédent

Type brique technologique / Application
Objectif général de la formation liste des objectifs de manière succincte
Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur Adeline Nazarenko
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

La recherche d'information consiste à sélectionner dans une collection des informations pertinentes répondant au besoin d'un utilisateur exprimé sous forme d'une requête. Nous nous intéressons en priorité à la recherche d'information textuelle.

L'objectif de cette formation est de donner une vision claire du fonctionnement d'un moteur de recherche. Nous présenterons quelques moteurs et plate-formes open source ainsi que les dernières techniques pour des fonctionnalités avancées.

Type Application
Objectif général de la formation
  • Compréhension du fonctionnement d'un moteur de recherche
  • Mise en place et paramétrage d'un moteur de recherche
  • Maîtrise de fonctionnalités de recherche avancées
Plan du cours
  • Présentation des différents modèles de RI
    1. Indexation et représentation
    2. Modèles de RI standards
  • Présentation de moteurs et plate-formes de RI Open Source
    1. Terrier
    2. Lucene, Solr
    3. YaSemIR
  • Comparaison et Évaluation de moteurs
    1. Critères d'évaluation
    2. Évaluation comparative sur un cas d'usage
  • Fonctionnalités avancées
    1. recherche par facettes
    2. recherche structurée
    3. recherche sémantique
    4. visualisation
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de programmation
Durée 12h
Formateur

Davide Buscaldi

Haïfa Zargayouna

Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Exposé de la problématique, accroche, voir exemple cours précédent

Type brique technologique / Application
Objectif général de la formation liste des objectifs de manière succincte
Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur Nadi Tomeh
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Exposé de la problématique, accroche, voir exemple cours précédent

Type brique technologique / Application
Objectif général de la formation liste des objectifs de manière succincte
Plan du cours Plan à détailler
Logiciels et ressources utilisées
Pré-requis Connaissance et pratique minimale d'un langage de script
Durée 6 h? / 12h?
Formateur Aldo Gangemi
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Cours d'introduction au traitement automatique des langues avec la boîte à outils NLTK (Natural Language Toolkit) en langage de programmation Python.

Type brique technologique / Application
Objectif général de la formation Donner à l'élève une première expérience pratique des problèmes à résoudre traitement automatique des langues.
Plan du cours
  • Tokenization
  • Expressions rationnelles
  • N-grammes
  • Annotation morpho-syntactique
  • Analyse lexicale
  • Extraction d'entités nommées
Logiciels et ressources utilisées Python, NLTK
Pré-requis Connaissance et pratique minimale du langage Python
Durée 12h
Formateur Jorge Garcia Flores
Public concerné consultants, ingénieurs et techniciens en TAL / SSII
Matériel nécessaire 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant.

Contacts à prendre pour « publicité » (à compléter): Cap Digital, associations professionnelles, entreprises du domaine, Discussion préalable avec formation continue : a priori UFR LSHS porterait le projet (demander à Fabrice d'intervenir), avec collaboration entre UFR LSHS et UFR informatique, laboratoire LIPN – équipe RCLN discuter avec FC des modalités de reversement des gains éventuels, en dehors des cours CM pour enseignants-chercheurs.

  • Dernière modification: il y a 3 ans