Thierry CHARNOIS

Professeur Université Paris 13 – IUT Villetaneuse

LIPN – CNRS (UMR 7030)


Parcours académique :

Maître de conférences, laboratoire GREYC, université de Caen Basse-Normandie (2001 – 2013)
Professeur au LIPN depuis le 1er septembre 2013


Responsabilités

Coordinateur pour le GREYC du projet ANR Hybride (cf ci-dessous), membre élu au conseil de laboratoire Greyc (2012-2013), conseil scientifique de l’université de Caen (2008- 2012), au CA de l’IUT de Caen (2003–07), commission de spécialiste 27e section (Caen, 2004–08), comité de sélection 27e section (membre extérieur : Angers, 2009 ; Paris IV, 2011), responsable scientifique demande subvention FEDER (2010), demande d’habilitation licence professionnelle (2005–07).

Activités scientifiques

Thématique de recherche :

Traitement automatique des langues et fouille de données
Mes travaux de recherche concernent le traitement automatique des langues (TAL), et la fouille de données textuelles. Ces travaux s’organisent autour de la problématique de l’accès à l’information dans les textes à partir d’une analyse linguistique. Parce qu’il s’agit de traiter du matériau linguistique nous adoptons une démarche interdisciplinaire à la croisée de la linguistique dans ses dimensions lexicales, phrastiques, discursives, et de l’informatique pour ses capacités à produire des représentation formelles et à réaliser des traitements automatiques. Soulignons que l’accès à l’information est ici vue comme un accès au "sens" à partir d’une modélisation linguistique relative à l’application visée, plutôt qu’un accès aux formes de surface comme l’utilisent actuellement les méthodes prédominantes des moteurs de recherche. En retour, cette modélisation vise à améliorer notre compréhension des phénomènes sémantiques traitées ; leur formalisation et leur expérimentation sur corpus rendant possible l’évaluation des connaissances linguistiques qu’elles soient au niveau des modèles ou des ressources nécessaires à l’application visée.
L’aboutissement de cette dialectique entre modélisation et formalisation dans nos travaux débouche actuellement sur la volonté d’intégrer les méthodes de fouille de données au TAL, notamment pour acquérir automatiquement des ressources linguistiques et alimenter à moindre coût les systèmes de TAL.
Une telle hybridation vise d’une part à repenser la manière dont les processus de TAL peuvent tirer bénéfice de méthodes de fouille spécifiquement adaptées au texte, et d’autre part à renforcer les processus de fouille, en fonction des spécificités de la donnée textuelle, par une prise en compte d’informations de nature linguistique visant notamment à sélectionner l’information la plus pertinente.
Coopérations, collaborations
Projets de recherche en cours
Coordinateur pour le GREYC de l'ANR Hybride (ANR-11-BS002-002 2011-2015), Hybridation de la fouille de données et du traitement automatique des langues. Ce projet (programme blanc de l’ANR) associe, outre le GREYC, les laboratoires INRIA-NGE Nancy, MoDyCo Paris-Ouest et Orphanet INSERM Paris pour une durée de 4 ans (1er décembre 2011 – 30 novembre 2015) pour un budget alloué de 485 505 euros. La coordination de l’ensemble du projet est assuré par Yannick Toussaint (INRIA-NGE Nancy).
Membre du projet Animitex (programme CNRS MASTODONS – Masse de données scientifiques), ANalyse d'IMages fondée sur des Informations TEXtuelles. Partenaires : Laboratoire d'Informatique, de Robotique et de Microélectronique de Montpellier LIRMM (Montpellier), Territoires, Environnement, Teledetection et Information Spatiale – TETIS (Montpellier), Laboratoire des sciences de l'ingénieur, de l'informatique et de l'imagerie – ICube (Strasbourg), Groupe de Recherche en Informatique, Image, Automatique et Instrumentation de Caen – GREYC (Caen), Laboratoire d'Informatique de L'Université de Pau et des Pays de l'Adour – LIUPPA (Pau). 1Er janvier 2013 – 31 décembre 201
Projets et contrats de recherche récents
ANR Bingo2 Knowledge discovery for and by inductive queries in post- genomic applications. Partenaires : laboratoires CGMC et LIRIS (Lyon), LHC (Saint-Etienne) et GREYC (Caen). De janvier 2008 à décembre 2011.
Projet européen PHC Barrande : bilateral Programme Hubert Curien project "Heterogeneous Data Fusion for Genomic and Proteomic Knowledge Discovery"; projet impliquant les laboratoires CGMC (Lyon), GREYC (Caen) et le Department of Cybernetics, Czech Technical University (Prague, République tchèque). De janvier 2008 à décembre 2009.
ANR Annodis Annotation discursive : corpus de référence pour le français et outils d’aide à l’annotation et à l’exploitation. Partenaires : laboratoires CLLE-ERESS (Toulouse 2), IRIT (Toulouse 1) et GREYC (Caen). De janvier 2008 à décembre 2010
ANR Ontopitex Modèles linguistiques et ontologies. Extraction informatique et caractérisation d’opinions et de jugements d’évaluation dans les textes. Partenaires : laboratoires LaLIC (Université Paris IV), CRISCO (Caen), GREYC (Caen) et les sociétés Noopsis (Caen) et TecKnow- Metrix (Grenoble). De fin 2009 à fin 2012.
ANR ProDescartes Corpus Descartes. Projet d’édition en ligne des œuvres et de la correspondance de Descartes. Partenaires : équipe Identité et Subjectivité (Caen), Centres d’Etudes Cartésiennes (Université Paris IV), GREYC (Caen) et la société Noopis (Caen). Début 2010 à fin 2012.

Publications