M. Faouzi BOUFARÈS
Maître de Conférences en Informatique

Habilité à Diriger des Recherches (HdR)


Laboratoire d’Informatique de Paris Nord
UMR CNRS 7030
Université Sorbonne Paris Nord
99, Avenue Jean-Baptiste Clément
93430 Villetaneuse – France
www.univ-paris13.fr
Tel : +33 1 49 40 40 71
Fax : +33 1 48 26 07 12
E-mail-1 : faouzi.boufares@sorbonne-paris-nord.fr
E-mail-2 : boufares@lipn.univ-paris13.fr
Web : http://lipn.univ-paris13.fr/~boufares
Bureau : B209

  • Situation Actuelle
  • Domaine de recherche
          > La Data e(s)t le monde de demain ! + Data's (the) world of tomorrow!
          > Ingénierie et Science des Données + Data Engineering & Data Science

          >> Qualité des Données et Apprentissage Artificiel... l'Avenir !
          >> Data Quality and Machine Learning... the Future!
          >> جودة البيانات وجودة المعلومات .. هي المستقبل

          >>> Bases de Données, Entrepôts de Données, Lacs de Données,... CSV, JSON...
          >>> Databases, Data Warehouses, Data Lakes, ...CSV, JSON... ; Big Data (... or Small?)

         Mots clés : Bases de Données, Entrepôts de Données, Lacs de Données, Big Data, Ingénierie des données, Science des Données, Gestion de données massives et hétérogènes, Intégration de données hétérogènes, Construction et maintenance d'entrepôts de données hétérogènes, Qualité des Données, Données CSV, Catégorisation des données, Notation des données, Business Intelligence, Systèmes d'Information, Prédiction, Systèmes de Recommandation, Intelligence Artificielle, Cloud Computing...
         Key words: Databases, Data Warehouses, Data Lakes, Big Data, Data Engineering, Data Science, Massive and Heterogeneous Data Management, Heterogeneous Data Integration, Building and Maintaining Heterogeneous Data Warehouses, Data Quality, CSV data, Data categorization, Data scoring, Business Intelligence, Information systems, Prediction, Recommendation systems, Artificial Intelligence, Cloud Computing...

         Thème de recherche : Mon domaine de compétence privilégié est résumé par les points suivants : (1) les Données -Bases, Entrepôts & Lacs de Données-, (2) La qualité des données et l'Intelligence artificielle, (3) Les Systèmes de Recommandation... Je traite de la science des données. Je travaille sur l'assemblage des données massives et hétérogènes (Données structurées et NON-structurées, Données CSV) : La Construction et La Maintenance d'ensembles de données hétérogènes ; La catégorisation des données ; La qualité et la Sémantique des données ; L'intelligence Artificielle au service de la qualité des données.
  • Publications
  • Enseignements
  • Sujets de stages Master 2 Recherche

Situation Actuelle

Je suis Maître de Conférences HdR en informatique (CE) à l'Université Sorbonne Paris Nord.

J'enseigne à l'Université Sorbonne Paris Nord (Institut Universitaire de Technologie de Villetaneuse et Institut Galilée).

Je suis membre du laboratoire LIPN -UMR CNRS 7030- (Laboratoire d'Informatique Paris Nord) de l'Université Sorbonne Paris Nord.

J'effectue mes recherches au sein de l'équipe A3 (Apprentissage Artificiel et Applications) sur le thème "La Data : Ingénierie et Exploration des Données Massives et Hétérogènes"

Demandez le savoir depuis le berceau jusqu'au tombeau !

!اطلب العلم من المهد إلى اللحد

Ceux qui cherchent trouvent ? (Des chercheurs qui cherchent, on en trouve ! Des chercheurs qui trouvent, on en cherche !)

Je suis docteur en informatique fondamentale, de l'Université Paris 11 (Paris Sud, Orsay) depuis décembre 1986.

(>>>>> 1) Mes débuts en Base de Données (BD) et en Système de Gestion de Bases de Données (SGBD) Relationnel (Université Paris 11) :
J'ai participé à la conception et au développement du Système de Gestion de Bases de Données (SGBD) Relationnel PEPIN3. J'ai travaillé sur plusieurs concepts tels que : (1) les Valeurs Nulles, (2) les Domaines Sémantiques, (3) l'Analyse et la Conception d'un optimiseur de requêtes dans un SGBD relationnel, (4) le Langage SQL et son intégration dans un langage hôte.
Mots clés : DB, DBMS, Relational DBMS, Null Values, Semantic Domains, SQL, Pascal-SQL, Query Optimization.

(>>>>> 2) Esuite, j'ai fait de l'Analyse et de la Conception de Systèmes d'Information et de Bases de Données (Universités Paris 13, 5 et 1) :
J'ai abordé l'Unification des Méthodes d'Analyses et de Conceptions des Systèmes d'Information en participant au développement d'un modèle générique et pivot. Nous avons explicité des règles de passage de l'orienté objet vers le relationnel.
Mots clés : ER, EER, UML, MCD, MLD, MPD, Méthodes/Modèles d'Analyses et de Conception Orientés Objet, Orienté Objet & Relationnel.

(>>>>> 3) De nos jours, je traite de l'intégration de données hétérogènes, de la qualité des données et de l'intelligence artificielle (Université Paris 13, Cnam de Paris) :
Je travaille, d'une part, sur l'Intégration de données hétérogènes. Je contribue au développement de nouveaux ETL (moins manuels et plus intelligents!) en mettant l'accent sur la sémantique données et leur la qualité.
D'autre part, j'ai abordé les concepts Big Data et Qualité des données ainsi que les méthodes de prédictions dans un contexte de gros volumes de données. On s'intéresse à l'application du parallélisme et de la distribution en faisant appel au principe MapReduce (Hadoop, Spark).
Mots clés : Heterogeneous data integration, Data Base, Data WareHouse, Data Lake, ETL, Data Quality, Contextual data quality, Data semantics, intra-column and inter-column anomalies, Null values, Deduplication, Similarities, Semantic dependencies, Big Data, Prediction.

Quelques responsabilités pédagogiques :
  • Bases de Données Avancées en Master 2 EID 2 à l'Institut Galilée à l'Université Sorbonne Paris Nord.
  • Entrepôts de Données en Master 2 EID 2 à l'Institut Galilée à l'Université Sorbonne Paris Nord.
  • Bases et Entrepôts de Données en Cycle Ingénieurs en Formation initiale et en apprentissage à l'Institut Galilée à l'Université Sorbonne Paris Nord.
  • Bases de Données en Master 1 Informatique à l'Institut Galilée à l'Université Sorbonne Paris Nord.
  • Systèmes d'Information et Bases de Données en Licence Professionnelle GRH à l'IUT de Villetaneuse à l'Université Sorbonne Paris Nord.
  • Informatique de Gestion (Outils Logiciels, ERP) en DUT GEA à l'IUT de Villetaneuse à l'Université Sorbonne Paris Nord.



Domaine de recherche


      >>> Data Engineering & Data Science >>>
      >>> Data Quality and Machine Learning... the future >>>
      >>> جودة البيانات وجودة المعلومات .. هي المستقبل >>>

Mots clés : Les Données (Data) -Bases, Entrepôts & Lacs de Données-, Big Data, Gestion de données massives et hétérogènes, Intégration de données hétérogènes, Construction et maintenance d'ensembles de données hétérogènes, Qualité des données, Business Intelligence, Systèmes d'Information ...

Thèmes de recherche : Mon domaine de compétence privilégié est résumé par les points suivants : (1) les Données -Bases, Entrepôts & Lacs de Données-, (2) La qualité des données et l'Intelligence Artificielle, et (3) Les Systèmes de Recommandation... Je traite la donnée (Ingénierie et Science des données. Je travaille sur l'assemblage des données massives et hétérogènes (Données structurées et NON-structurées, Données CSV) : La Construction et La Maintenance d'ensembles de données hétérogènes ; La catégorisation des données ; La qualité et la Sémantique des données ; L'intelligence Artificielle au service de la qualité des données.

Bases de Données et Systèmes d'Information :
Système de Gestion de Bases de Données.
Outils d'aide à la conception de Bases de Données.
Méthodes d'Analyses et de Conception de Systèmes d'Information.
De la conception objet vers les implantations relationnelle et objet-relationnelle.

Données Massives (Bases, Entrepôts et Lacs de Données, Big Data) et décisionnel :
Intégration de Données hétérogènes.
Construction et maintenance d'ensembles de données hétérogènes.
Catégorisation des données, Qualité des données, Sémantique des données. Données CSV
Big Data.
Prédiction.



Quelques Publications Récentes

[>>>>>>>>>>>>>>>>>>> +++++++ 2013 >>>>> 2023 +++++++]
« Key Words : Big Data, Data Base, Data Warehouse, Data Lake, Data Quality, Machine Learning, Semantic Data Profiling, Entity Resolution, CSV Data »
« Key Words : Heterogeneous Data Integration, New ETL & Data Quality, Machine Learning »
« Key Words : Big Data, Prediction, Multiple Linear Regression, Bagging, MapReduce »
« Key Words : XPath, XML updates, concurrency control, conflict detection »

[2021 c] Marc Chevallier, Faouzi Boufarès, Nistor Grozavu, Nicoleta Rogovschi and Charly Clairmont
« Near duplicate Column identification: a machine learning approach »
2021 IEEE Symposium Series on Computational Intelligence (SSCI) (SSCI 2021)

[2021 b] Chevallier, M., Rogovschi, N., Boufarès, F., Grozavu, N., Clairmont, C.
« Techniques de génération de population initiale d'algorithmes génétiques pour la sélection de caractéristiques »
Conférence Internationale Francophone sur la Science des Données (CIFSD 2021) Actes de la 9e édition. Juin 2021, Marseille, France. 2021. Pages 25-35.

[2021 a] Chevallier, M., Rogovschi, N., Boufarès, F., Grozavu, N., Clairmont, C.
« Seeding initial population, in genetic algorithm for features selection »
Proceedings of the 12th International Conference on Soft Computing and Pattern Recognition (SoCPaR 2020)
(In: Abraham, A., Ohsawa,Y., Gandhi, N., Jabbar, M., Haqiq, A., McLoone, S., Issac, B. (eds.) pp. 572-582. Springer International Publishing, Cham (2021).

[2020 c] S. Oujdi and F. Boufares
« C4.5 Decision Tree Algorithm for Spatial Data, Alternative and Performances »
Journal of Computing and Information Technology ; 05-2020 ; 27(3):29-43.

[2020 b] Hamid Naceur Benkhaled, Djamel Berrabah and Faouzi Boufares.
« Data Warehouses and Big Data: How to Cope With Data Quality. »
International Journal of Organizational and Collective Intelligence (IJOCI), vol. 10, no. 3, pages 1-13, 2020.

[2020 a] Hamid Naceur Benkhlaed, Djamal Berrabah, Nassima Dif and Faouzi Boufares.
« An Automatic Blocking Keys Selection For Efficient Record Linkage.»
International Journal of Organizational and Collective Intelligence (IJOCI), vol. 11, no. 1, pages 53-70, 2020.

[2019 b] A. Ben Salem and F. Boufarès
« iDQMS : An intelligent Data Quality Management System tool »
16th International Conference Applied Computing 2019 (AC 2019)
7-9 November 2019, Cagliari, Italy.

[2019 a] H. N. Benkhaled, Dj. Berrabah and F. Boufarès
« A Novel Approach to Improve the Record Linkage Process »
2019 IEEE 6th International Conference on Control, Decision and Information Technologies (CoDIT 2019)
(CoDIT 2019), 23-26 April 2019, Paris, France.

[2017 b] A. Ouhab, M. Malki, Dj. Berrabah and F. Boufarès
« An Unsupervised Entity Resolution Framework for English and Arabic Datasets »
International Journal of Strategic Information Technology and Applications (IJSITA) 8(4), 2017.

[2017 a] H. Zaidi (Thèse encadrée par F. Boufarès)
« Amélioration de la qualité des données, Correction sémantique des anomalies inter-colonnes »
Thèse de doctorat en informatique du Conservatoire National des Arts et Métiers de Paris (Le Cnam Paris et l'Université Paris 13 Sorbonne Paris Cité Laboratoire LIPN), Directeur F. Boufarès
(Doctorat 2017), 1st february 2017, Paris, France. Pages 1-167.

[2016 c] H. Zaidi, F. Boufarès and Y. Pollet
« Improve data quality by processing null values and semantic dependencies »
Proceedings of the 8th International Conference on Computational Intelligence and Software Engineering.
(CISE 2016), May 2016, China. Journal of Computer and Communications, Volume 4 No. 5, Pages 78-85.

[2016 b] M. Rehab Adjout (Thèse encadrée par F. Boufarès)
« Big Data : le nouvel enjeu de l'apprentissage à partir des données massives »
Thèse de doctorat en informatique de l'Université Paris 13 Sorbonne Paris Cité dans le cadre d'une Cifre avec l'entreprise Viseo/Novedia, Directeur F. Boufarès
(Doctorat 2016), 1st April 2016, Paris, France. Pages 1-175.

[2016 a] H. Zaidi, F. Boufarès et Y. Pollet
« Nettoyage de données guidé par la sémantique inter-colonnes »
Actes de la 16ième Conférence Internationale Francophone sur l'Extraction et la Gestion des Connaissances.
(EGC 2016), 18-22 Janvier 2016, Reims, France. Pages 18-22. Revue des Nouvelles Technologies de l Information, (RNTI), E-30

[2015 g] D. Berrabah and F. Boufarès
« An efficient detection of conflicting XML updates »
International Journal of Knowledge-based and Intelligent Engineering Systems - Volume 19, issue 3, ISSN 1327-2314 (P) ISSN 1875-8827 (E)
(DOI: 10.3233/KES-150316 2015), November, 2015. Pages 163-171.

[2015 f] A. Ben Salem, F. Boufarès and S. Correia
« Semantic Data Profiling for BigData »
Proceedings of the 28th International Conference on Computer Applications in Industry and Engineering
(CAINE 2015), 12-15 October 2015, San Diego, California, USA. Pages 139-146.

[2015 e] H. Zaidi, Y. Pollet, F. Boufarès and N. Kraiem
« Semantic of Data Dependencies to Improve the Data Quality »
Proceedings of the 5th International Conference on Model and Data Engineering, Lecture Notes in Computer Science LNCS N° 9344. Springer 2015.
(MEDI 2015), 26-28 September 2015, Rhodes, Greece. Pages 53-61.

[2015 d] M.Adjout Rehab and F. Boufarès
« Scalable Massively Parallel Learning of Multiple Linear Regression Algorithm with MapReduce »
Proceedings of the 9th IEEE International Conference on Big Data Science and Engineering
(IEEE BigDataSE-15), 20-22 August 2015, Helsinki, Finland. Pages 41-47.

[2015 c] S. Correia, A. Ben Salem and F. Boufarès
« Semantic Data Schema Recognition »
Proceedings of the 17th International Conference on Advanced Data Mining and Applications
(ICADMA 2015), August 2015, Pages p1-p2.

[2015 b] A Ben Salem (Thèse encadrée par F. Boufarès)
« Qualité contextuelle des données : Détection et Nettoyage guidés par la sémantique des données »
Thèse de doctorat en informatique de l'Université Paris 13 Sorbonne Paris Cité dans le cadre d'une Cifre avec l'entreprise Talend, Directeur F. Boufarès
(Doctorat 2015), 31 March 2015, Paris, France. Pages 1-255.

[2015 a] M.Adjout Rehab and F. Boufarès
« Parallel Implementation of Multiple Linear Regression Algorithm Based on MapReduce »
Proceedings of the 5th International Conference on Industrial Engineering Operations Management
(IEOM 2015), 3-5 March 2015, Dubai, United Arab Emirates UAE. Pages 2493-2497 (Best Track).

[2014 c] M.Adjout Rehab and F. Boufarès
« A Massively Parallel Processing for the Multiple Linear Regression »
Proceedings of the 10th International Conference on Signal-Image Technology and Internet-Based Systems, Workshop on BIG DATA meets CLOUD and VIRTUALIZED ENVIRONMENT
(SISTIS 2014), 23-27 November 2014, Marrakech, Morocco. Pages 666-671.

[2014 b] A. Ben Salem, F. Boufarès and S. Correia
« Semantic recognition of a data structure in Big Data »
Journal of computer and communications, ISSN:2327-5219, Vol.2, No.9.
July 2014. Pages 93-102.

[2014 a] A. Ben Salem, F. Boufarès and S. Correia
« Semantic recognition of a data structure in Big Data »
Proceedings of the 6th International Conference on Computational Intelligence and Software Engineering.
(CISE 2014), July 2014, Beijing, China. Pages 93-102.

[2013] F. Boufarès, A. Ben Salem, M. Rehab and S. Correia
« Similar Elimination Data : MFB Algorithm »
Proceedings of the IEEE 2013 International Conference on Control, Decision and Information Technologies
(CODIT 2013), 6-8 Mai 2013, Hammamet, Tunisie. Pages 289-293.

[>>>>>>>>>>>>>>>>>>> +++++++ 2010 >>>>> 2012 +++++++]
« Key Words : Data Bases, Heterogeneous Data Integration, ETL, Data Quality »
« Key Words : Deduplication & MFB algorithms, Semantic Data Profiling »

[2012 e] F. Boufarès
« Des Bases de Données aux Entrepôts de Données, Contribution au développement de nouveaux outils d'Intégration de Données et de Qualité de Données. »
HDR, Habilitation à Diriger des Recherches en informatique à l'Univerité Paris 13 Sorbonne Paris Cité.
(HDR 2012). 19 Juin 2012, Paris, France. Pages 1-158.

[2012 d] F. Boufarès, A. Ben Salem and S. Correia
« Qualité de données dans les entrepôts de données : élimination des similaires »
Revue des Nouvelles Technologies de l Information, (RNTI), B-8
Entrepôts de Données et Analyse en ligne (EDA 2012). Juin 2012. Pages 32-41. Actes des 8èmes Journées francophones sur les Entrepôts de Données et l Analyse en ligne, (EDA 2012), 11-13 Juin 2012, Bordeaux, France.

[2012 c] F. Boufarès, A. Ben Salem and S. Correia
« Deduplication algorithms for DataBases and Data warehouses »
Proceedings of the Twenty First International Conference on Software Engineering and Data Engineering
(SEDE 2012), 27-29 June 2012, Los Angeles, California, USA. Pages 73-78.

[2012 b] F. Boufarès, A. Ben Salem et S. Correia
« Un algorithme de déduplication pour les Bases et Entrepôts de Données »
Actes du XXXème Congrès INFormatique des ORganisations et Systèmes d'Information et de Décision,
(INFORSID 2012), 29-31 mai 2012, Montpellier, France. Pages 497-504.

[2012 a] F. Boufarès, A. Ben Salem and N. Kraiem
« Inconsistency of Data from the Integration of Heterogeneous Sources »
Proceedings of the 8th International Conference on Innovations in Information Technology IIT, NTSE Workshop,
(NTSE 2012), 2012, Al Ain, United Arab Emirates UAE. Pages 10-18.

[2011 b] F. Boufarès and A. Ben Salem
« Heterogeneous data-integration and data quality: Overview of conflicts »
Proceedings of the International Conference on Sciences of Electronic, Technologies of Information and Telecommunications,
(SETIT 2011), 26-29 October 2011, Sousse, Tunisie.

[2011 a] F. Boufarès and A. Ben Salem
« Qualité des données dans les systèmes d'information, un bref aperçu »
Actes des 14émes Journées Francophones d'Informatique Médicale, Systèmes d’information pour l’amélioration de la qualité en santé,
(JFIM 2011), 23 - 24 septembre 2011, Tunis, Tunisie.

[2010 c] S. Hamdoun et F. Boufarès
« Un formalisme pour l’intégration de données hétérogènes »
Actes de la 6ème Journées francophones sur les Entrepôts de Données et l’Analyse en ligne,
(EDA’2010), 11 - 13 Juin 2010, Djerba, Tunisie, Pages 107-119.

[>>>>>>>>>>>>>>>>>>> +++++++ 2007 >>>>> 2009 +++++++]
« Key Words : Data WareHouses, Heterogeneous Data Integration, Constraints Checking »

[2009 a] M. Badri, F. Boufarès, S. Hamdoun, V. Heiwy and K. Lellahi
« Construction and Maintenance of Heterogeneous Data WareHouses »
Livre (Chapitre de livre) Data Warehousing Design and Advanced Engineering Applications: Methods for Complex Construction. chez l’éditeur Advances in Data Warehousing and Mining (ADWM) Book Series, ISBN: 1935-2646, IGI Global Book Publishing, Pages 189-204 July 2009.

[2008 a] M. Badri, V. Heiwy et F. Boufarès
« Mise à jour incrémentale des agrégats : Cas des indicateurs ROLAP dans les entrepôts de données »
Actes du Colloque National de la Recherche en IUT,
(CNRIUT’2008), Mai 15-16, 2008, Tarbes, France. Pages 375-382.

[2008 b] D. Berrabah and F. Boufarès
« Constraints Satisfaction Problems in Data Modeling »
Proceedings of the 5th International Conference on Soft Computing as Transdisciplinary Science and Technology (IEEE Systems, Man, and Cybernetics Society),
(CSTST’08), October 27-31, 2008, Cergy-Pontoise Paris, France. Pages 292-297.

[2008 c] R. Nefoussi, S. Hamdoun et F. Boufarès
« Sécurité d’un système d’information médicale utilisant les entrepôts de données »
Proceedings of the 2nd International Conference on E-Medical Systems,
(E-MediSys’2008), Octobre 29-31, 2008, Sfax, Tunisie.

[2007 a] D. Berrabah, F. Boufarès et M. Badri
« Un méta-modèle pour l’étude de la cohérence globale des contraintes dans les bases de données »
Actes du quatrième Colloque sur l’Optimisation et les Systèmes d’Information,
(COSI’07), Juin 11-13, 2007, Oran, Algérie. Pages 485-497.

[2007 b] S. Hamdoun, F. Boufarès et M. Badri
« Construction et Maintenance des entrepôts de données hétérogènes »
Revue e-TI (e-TI La revue électronique des technologies d’information),
(Revue e-TI - 2007), Numéro 4, 23 Juin 2007.

[2007 c] D. Berrabah and F. Boufarès
« Constraints Checking in UML Class Diagrams : SQL vs OCL »
Proceedings of the 18th International Conference of Database and Expert Systems Applications,
(DEXA’07), September 3-7, 2007, Regensburg, Germany. Lecture Notes in Computer Science LNCS N°4653. Pages 593-602. Springer 2007.




Enseignements

Bases de Données Avancées
(MFB-BDADW1)
(Master 2 EID 2 à l'Université Sorbonne Paris Nord + Cycle Ingénieurs)

Entrepôts de Données (MFB-BDAW2)
(Master 2 EID 2 à l'Université Sorbonne Paris Nord)

La DATA (MFB-BDAW2)
(Master 2 EID 2 à l'Université Sorbonne Paris Nord)

Bases de Données (MFB-BD)
(Master 1 Informatique à l'Université Sorbonne Paris Nord)

Systèmes d'Information de Gestion et Bases de Données (MFB-BDSIG1)
(Licence Professionnelle GRH à l'IUT de Villetaneuse)

Informatique de Gestion (Outils Logiciels, ERP) (MFB-DBSIG2)
(DUT GEA à l'IUT de Villetaneuse)



Sujets de stages Master 2 Recherche