Infrastructure de traitement parallèle des Big Data
Ref: 3MD1060
Description
Ce cours a pour objectif d'introduire les principales technologies pour faire face aux nombreux défis posés par les Big Data.
Big Data est un terme utilisé pour décrire une collection de données qui est énorme en volume et qui pourtant croît de façon exponentielle avec le temps. En bref, ces données sont si volumineuses et complexes qu'aucun des outils traditionnels de gestion des données n'est capable de les stocker ou de les traiter efficacement.
Ce cours présente les technologies existantes qui rendent possible le traitement efficace de grands volumes de données, à savoir Hadoop MapReduce et Apache Spark.
Numéro de trimestre
SD9
Prérequis
- Programmation Python
- Notions en bases de données relationnelles
Syllabus
Programmation MapReduce
- Introduction à MapReduce: motivations et examples.
- Mise en œuvre de MapReduce.
Hadoop
- Introduction à Hadoop et ses fonctionnalités.
- Hadoop Distributed File System (HDFS)
Introduction à Apache Spark
- Introduction à Spark et ses fonctionnalités (RDD, transformations, actions, dataframes, datasets).
- Architecture de Spark et modèle d’exécution.
- Mise en œuvre d’Apache Spark.
Composantes d’Apache Spark
- SparkSQL, Spark Streaming, Machine learning and Graph analysis.
Notation
Examen écrit à la fin (3h) et un TP noté
Ressources
Equipe pédagogique : Gianluca Quercini
Résultats de l'apprentissage couverts par le cours
- Comprendre les concepts à la base du Big Data.
- Utiliser des paradigmes de calcul distribué : MapReduce et Spark.
- Concevoir des algorithmes de calcul distribué sur les données.
Description des compétences acquises à la fin du cours
Exploit any type of data, structured or not, including massive data.
Support de cours, bibliographie
•
Transparents fournis par l’enseignant.
•
Singh, Chanchal, and Manish Kumar.Mastering Hadoop 3: Big data processing at scale to unlock unique business insights. Packt Publishing Ltd, 2019.
•
Mehrotra, Shrey, and Akash Grade.Apache Spark Quick Start Guide: Quickly learn the art of writing efficient big data applications with Apache Spark. Packt Publishing Ltd, 2019.
•
Karau, Holden, et al.Learning spark: lightning-fast big data analysis. " O'Reilly Media, Inc.", 2015.