Neoveille

De wikiRcln
Révision de 9 novembre 2015 à 15:01 par Jgflores (discussion | contributions) (ToDo)

(diff) ← Version précédente | Voir la version courante (diff) | Version suivante → (diff)
Aller à : navigation, rechercher

Repérage, analyse et suivi des néologisme en corpus

Objectifs

  1. Plateforme de repérage, analyse et suivi des néologismes en corpus (LIPN)
  2. Etude des emprunts en corpus (LDI, CLILLAC-ARP, Ieda, EMPNEO)
  3. Etude de la néologie sémantique (ERTIM, LIPN, LDI)

Consortium

  • Paris 13 (LIPN, LDI)
  • Paris 7 (CLILLAC-ARP)
  • INALCO (ERTIM)
  • Université Sao Paulo (Ieda Alves)
  • Groupe EMPNEO

Embauche d'un ingénieur d'études

ToDo

  • Embaucher un ingénieur pour développer la plate-forme (DONE)
  • Choisir une architecture approprié au besoin et au caractère multilingue de l'application (DONE)
  • POS Tagging
  1. TAL server is not displaying Chinese nor Russian characters (DONE)
  2. Greek POS tagging web service (DONE)
    • We explore
  3. Tokenization problem for Tree Tagger (DONE)
  4. Tree tagger installation (Katia:DONE)
  5. Emmanuel will perform tests on the TAL server installation, specially of the POS tagging part (Emmanuel)
  • Indexing
  1. IMS CWB web interface and Tree Tagger (Emmanuel, Katia, Jorge; Due date: November 13)
    1. Katia will install IMS CWB in her computer from scratch (Katia and Jorge)
    2. After a localhost connection is possible, we would index a corpus from Neoveille and test it (Katia & Jorge)
    3. Fix or reinstalls CPQ Web in the TAL Server (Katia, Jorge, Emmanuel)
  • Infrastructure
  1. Redmine migration (Jorge)
  2. Gibhub for Neoveille (Jorge)
  3. Document TAL Cluster (Emmanuel)
  4. Project web site (Katia)
  5. Python migration (Katia)
  • Iteration 1
  1. Which architecture for Neoveille's functional interface (Emmanuel, Jorge, Katia)
  • Next meeting: Friday, November 17th, 14h

Schedule

Iteration 0: seven languages with POS tagging on IMS CWB

Scheduled date: November 5

RSS processing

POS Tagging

  • Milestone: produce the same output for the 7 language in the TAL server every month from the RSS input
  1. POS Tagging in the seven language
    • Greek
    • Chinese
    • Russian
    • Portuguese
    • Polish
    • Czech
    • French
  2. POS Tagging with the RSS input

Indexing of the POS Tagging RSS output for IMS CWB

Dependency Analysis

Neoveille Web interface

Project web site

Iteration 1: seven languages with POS tagging and dependency analysis on D3 or IMS CWB

Iteration 2: neologism detection

Questions

  • Est-ce qu'on peut distribué en libre des données qu'on au recueilli à partir d'un fil RSS?

Liens