Infrastructure de traitement parallèle des Big Data

Ref: 3MD1060

Description

Ce cours a pour objectif d'introduire les principales technologies pour faire face aux nombreux défis posés par les Big Data.

Big Data est un terme utilisé pour décrire une collection de données qui est énorme en volume et qui pourtant croît de façon exponentielle avec le temps. En bref, ces données sont si volumineuses et complexes qu'aucun des outils traditionnels de gestion des données n'est capable de les stocker ou de les traiter efficacement.

Ce cours présente les technologies existantes qui rendent possible le traitement efficace de grands volumes de données, à savoir Hadoop MapReduce et Apache Spark.

Période(s) du cours

SD9

Prérequis

- Programmation Python

- Notions en bases de données relationnelles

Syllabus

Programmation MapReduce

- Introduction à MapReduce: motivations et examples.

- Mise en œuvre de MapReduce.

Hadoop

- Introduction à Hadoop et ses fonctionnalités.

- Hadoop Distributed File System (HDFS)

Introduction à Apache Spark

- Introduction à Spark et ses fonctionnalités (RDD, transformations, actions, dataframes, datasets).

- Architecture de Spark et modèle d’exécution.

- Mise en œuvre d’Apache Spark.

Composantes d’Apache Spark

- SparkSQL, Spark Streaming, Machine learning and Graph analysis.

Ressources

Equipe pédagogique : Gianluca Quercini

Résultats de l'apprentissage couverts par le cours

- Comprendre les concepts à la base du Big Data.

- Utiliser des paradigmes de calcul distribué : MapReduce et Spark.

- Concevoir des algorithmes de calcul distribué sur les données.

Support de cours, bibliographie

• Transparents fournis par l’enseignant.

• Singh, Chanchal, and Manish Kumar.Mastering Hadoop 3: Big data processing at scale to unlock unique business insights. Packt Publishing Ltd, 2019.

• Mehrotra, Shrey, and Akash Grade.Apache Spark Quick Start Guide: Quickly learn the art of writing efficient big data applications with Apache Spark. Packt Publishing Ltd, 2019.

• Karau, Holden, et al.Learning spark: lightning-fast big data analysis. " O'Reilly Media, Inc.", 2015.

Responsable(s) :

Pauline Lafitte

Gianluca Quercini

Langues du cours :

FRANCAIS

Nombre d'heure :

40 h

Nombre d'heure sur site :

24 h

Année académique :

2024-2025

Niveau avancé :