lipn

Laboratoire d'Informatique de Paris Nord

UMR 7030, Université Paris 13, 99 avenue Jean-Baptiste Clément, 93430 Villetaneuse

up13 cnrs

Apprentissage en distributions déséquilibrées

 

Plusieurs aspects peuvent influencer les systèmes d'apprentissage durant la phase de conception. Un de ces aspects est lié au déséquilibre des classes dans lequel l'effectif (nombre d'observations) d'une classe dépasse fortement celui des autres classes. Dans ce type de cas assez fréquent, le système d'apprentissage rencontre des difficultés liées au déséquilibre inter-classes. En effet, la plupart des algorithmes d'apprentissage sont basés sur l'hypothèse que les données d'apprentissage doivent être un échantillon i.i.d. (indépendant et identiquement distribué) représentatif de la population sur laquelle le modèle sera appliqué. Ces deux hypothèses ne sont pas respectées pour certains modèles quand ils sont construits à partir de données déséquilibrées.

Résultats :

  • Approche d'apprentissage à partir d'une seule classe fondée sur un ensemble d'opérateurs de projection orthogonale et un double bootstrap [1]. L'approche combine une technique de rééchantillonnage et l'idée d'apprentissage d'ensemble. Gràce à son algorithme d'apprentissage en ligne, l'approche peut également suivre les changements dans les données au fil du temps.
  • Méthode de sous-échantillonnage structurel adaptatif. Le processus procède par sous-échantillonnage des données majoritaires, guidé par les données minoritaires tout au long de la phase d'un apprentissage semi-supervisé. Cette approche permet de découvrir la structure des données avec une meilleure qualité (erreur topographique plus faible et pureté de la classification plus importante) [2].

Références

  1. Fatma Hamdi and Younès Bennani. « Learning random subspace novelty detection filters », In Proceedings of the International Joint Conference on Neural Networks (IJCNN 2011), pages 2273-2280, San Jose, California, USA, Aug 2011. IEEE.
  2. Fatma Hamdi, Mustapha Lebbah, and Younès Bennani. « Topographic under-sampling for unbalanced distributions », In Proceedings of the International Joint Conference on Neural Networks (IJCNN 2010), pages 18-23, Barcelona, Spain, Jul 2010. IEEE.

pres

w3c-xhtml