Projet Formation Continue en TAL
Techniques (ou Technologies) en Traitement Automatique des Langues : formations courtes à destination des professionnels dans le cadre de la formation continue
Présentation
Le Traitement Automatique des Langues (TAL) est un domaine d'activité qui s'est développé avec l'essor du web et l'abondance des documents électroniques. D'abord cantonnée à la recherche, et partagée entre la linguistique, la statistique et l'informatique, cette discipline a pénétré le monde économique, avec des applications multiples : correcteurs orthographiques, synthèse de la parole, moteurs de recherche, traduction automatique, fouille de données, acquisition de connaissances, web sémantique, etc.
Il s'agit d'un domaine où les travaux de la recherche peuvent impacter rapidement les applications mises à disposition par les acteurs économiques. C'est dans le but de permettre à ces acteurs de rester à jour des connaissances que cette série de séminaires portant sur les techniques en TAL est créée.
Ces séminaires s'adressent aux acteurs (consultants, ingénieurs, techniciens) des entreprises liées au secteur de l'analyse de contenus voulant mettre à jour leurs connaissances et leurs pratiques pour rester à la pointe de l'innovation.
Il s'agit donc de proposer aux professionnels des points techniques en Traitement Automatique des Langues, en prenant appui sur les briques technologiques disponibles et en montrant leur valeur ajoutée sur des applications diverses.
Etant donné l'évolution rapide en TAL, les séminaires proposés pourront évoluer au cours du temps. Pour l'année 2014, nous proposons un cycle de N séminaires focalisant sur la compréhension automatique des textes écrits. Chaque séminaire est indépendant des autres, sauf mention contraire.
Commentaire Adl : le terme de “séminaire” me paraît pas très vendeur.
Modalités pratiques
Une salle informatique dédiée sera mise à disposition dans les locaux de l'université Paris 13 Sorbonne Paris Cité.
Chaque séminaire durera six heures sur une journée (sauf mention contraire) et reposera sur une pédagogie interactive combinant formation et mise en application des connaissances.
A l'issue de la formation, une validation sera effectuée sous forme d'un QCM de contrôle des connaissances et d'un exercice pratique à rendre à l'enseignant sous forme électronique une semaine à quinze jours maximum après la fin du cours.
Un certificat d'assiduité sera délivré à chaque étudiant, et un certificat d'aptitude à ceux qui auront validé le QCM et l'exercice pratique.
Cible de la formation
Consultants en SSII cherchant des solutions en Content Management
Techniciens et ingénieurs dans les entreprises de TAL / Content Management / Document Engineering
Formations proposées
Introduction au Traitement Automatique des Langues
Exposé de la problématique, accroche, voir exemple cours précédent
Type | brique technologique / Application |
Objectif général de la formation | liste des objectifs de manière succincte |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur | |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Remarque : cette formation est une mise à niveau pour grands débutants.
Création de corpus à partir des données du web
La première étape d'un traitement linguistique sur des textes est la récupération de textes, qu'on appellera corpus (ou corpus de documents).La solution la plus immédiate consiste à récupérer les documents manuellement. Cette procédure permet de tester préalablement des traitements linguistiques, mais trouve vite ces limites, au moins pour les deux raisons suivantes : temps nécessaire pour construire le corpus ; traitements individuels des fichiers pour résoudre la problématique d'unification des formats, des encodages, etc.
Nous présentons dans ce cours différentes manières de constituer automatiquement un corpus de documents, à la fois programmatiquement (via un langage de script type PERL ou PYTHON), mais aussi, quand ils existent, en utilisant des logiciels dédiés à cette tâche.
La constitution d'un corpus pour le TAL nécessite de répondre à trois questions :
- Quel est l'objectif visé par la constitution de ce corpus ? La réponse à cette question conditionne les documents qui seront visés ;
- Où trouver le corpus, et comment le récupérer ? La réponse à cette question permettra d'identifier les différents outils techniques nécessaires et de fixer les objectifs pratiques ;
- Quels traitements sont nécessaires afin d'obtenir une sortie unifiée des différents documents ? Ce questionnement ressortit au format des documents à générer, de l'encodage choisi, des informations qu'on souhaite conserver dans les documents bruts et de l'utilisation ultérieure du corpus.
Type | brique technologique / Application |
Objectif général de la formation | Maîtrise de l'état de l'art sur la création de corpus à partir du web Mise en œuvre des logiciels dans des applications spécifiques |
Plan du cours |
|
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 heures |
Formateur | Emmanuel Cartier |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Annotation des textes : enjeux, problématiques, solutions
Exposé de la problématique, accroche, voir exemple cours précédent
Type | brique technologique / Application |
Objectif général de la formation | liste des objectifs de manière succincte |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur | Adeline Nazarenko? |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Extraction d'information : expressions régulières
Les documents numériques, une fois récupérés, peuvent être soumis à différents traitements linguistiques. La première étape est la segmentation du texte en mots, en phrases et en unités discursives (paragraphes, sections, etc.). On peut dès lors mettre en place une extraction d'informations, pour repérer par exemple des entités nommées, des relations sémantiques etc.
L'objectif de cette formation est de présenter en détail l'extraction d'information au moyen des expressions régulières, qui sont un métalangage très vite apparu dans le domaine, et qui continue à être utilisé de manière très fréquente, de par sa puissance expressive et sa généralité. Nous prendrons appui sur la tâche d'extraction des entités nommées.
Nous aborderons dans ce cours le langage des expressions régulières de manière approfondie (des motifs simples aux motifs complexes). Nous évoquerons également la méthodologie à suivre pour mettre en place les motifs : mise en place d'un corpus de test et d'évaluation ; utilisation des mesures de précision, rappel et F-mesure. Nous détaillerons enfin un certain nombre d'outils et de techniques permettant d'accélérer la mise au point des motifs : métalangages basés sur les expressions régulières et adaptés au TAL (TokensRegexp), bootstrapping.
Type | brique technologique / Application |
Objectif général de la formation | Maîtrise des expressions régulières pour repérer des informations ciblées dans les textes Maîtrise d'une méthodologie pour mettre en place les motifs répondant à une tâche d'extraction spécifique Maîtrise des outils et techniques d'optimisation et d'accélération de la mise en place des motifs |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur |
|
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Analyse morphosyntaxique des textes : enjeux, problématiques, solutions
Exposé de la problématique, accroche, voir exemple cours précédent
Type | brique technologique / Application |
Objectif général de la formation | liste des objectifs de manière succincte |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur | Emmanuel Cartier? Joseph le Roux? Fabrice Issac? |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Chunking / analyse syntaxique des textes : enjeux, problématiques, solutions ( ???)
Exposé de la problématique, accroche, voir exemple cours précédent
Type | brique technologique / Application |
Objectif général de la formation | liste des objectifs de manière succincte |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur | Joseph Le Roux? |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Analyse sémantique des textes : enjeux, problématiques, solutions
Exposé de la problématique, accroche, voir exemple cours précédent Remarque : initialement ce cours était divisé en deux parties : Semantic Role Labelling et Word Sense Disambiguation), il serait donc possible de prévoir deux séances pour ce cours.
Type | brique technologique / Application |
Objectif général de la formation | liste des objectifs de manière succincte |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur |
|
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Modèles (probabilistes) du langage
Exposé de la problématique, accroche, voir exemple cours précédent {| class=“wikitable centre” width=“100%”
Type | brique technologique / Application |
Objectif général de la formation | liste des objectifs de manière succincte |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur |
|
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Statistiques lexicales
Exposé de la problématique, accroche, voir exemple cours précédent
Type | brique technologique / Application |
Objectif général de la formation | liste des objectifs de manière succincte |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur | Adeline Nazarenko |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Recherche d'information
La recherche d'information consiste à sélectionner dans une collection des informations pertinentes répondant au besoin d'un utilisateur exprimé sous forme d'une requête. Nous nous intéressons en priorité à la recherche d'information textuelle.
L'objectif de cette formation est de donner une vision claire du fonctionnement d'un moteur de recherche. Nous présenterons quelques moteurs et plate-formes open source ainsi que les dernières techniques pour des fonctionnalités avancées.
Type | Application |
Objectif général de la formation |
|
Plan du cours |
|
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de programmation |
Durée | 12h |
Formateur | Davide Buscaldi Haïfa Zargayouna |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Traduction automatique
Exposé de la problématique, accroche, voir exemple cours précédent
Type | brique technologique / Application |
Objectif général de la formation | liste des objectifs de manière succincte |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur | Nadi Tomeh |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Ontologies / Web Sémantique
Exposé de la problématique, accroche, voir exemple cours précédent
Type | brique technologique / Application |
Objectif général de la formation | liste des objectifs de manière succincte |
Plan du cours | Plan à détailler |
Logiciels et ressources utilisées | |
Pré-requis | Connaissance et pratique minimale d'un langage de script |
Durée | 6 h? / 12h? |
Formateur | Aldo Gangemi |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Introduction au traitement du langage naturel en Python.NLTK
Cours d'introduction au traitement automatique des langues avec la boîte à outils NLTK (Natural Language Toolkit) en langage de programmation Python.
Type | brique technologique / Application |
Objectif général de la formation | Donner à l'élève une première expérience pratique des problèmes à résoudre traitement automatique des langues. |
Plan du cours |
|
Logiciels et ressources utilisées | Python, NLTK |
Pré-requis | Connaissance et pratique minimale du langage Python |
Durée | 12h |
Formateur | Jorge Garcia Flores |
Public concerné | consultants, ingénieurs et techniciens en TAL / SSII |
Matériel nécessaire | 1 pc connecté à Internet et disposant de toutes les applications et ressources nécessaires sera fourni à chaque apprenant. |
Miscellaneous
Contacts à prendre pour « publicité » (à compléter): Cap Digital, associations professionnelles, entreprises du domaine, Discussion préalable avec formation continue : a priori UFR LSHS porterait le projet (demander à Fabrice d'intervenir), avec collaboration entre UFR LSHS et UFR informatique, laboratoire LIPN – équipe RCLN discuter avec FC des modalités de reversement des gains éventuels, en dehors des cours CM pour enseignants-chercheurs.