📊 Curriculum Complet

Vue d’ensemble du programme Data Engineering — From Zero to Hero

Note🎯 Objectif du Programme

Ce bootcamp vous emmène de zéro à Senior Data Engineer à travers 35 modules progressifs, 2 projets intégrateurs et des centaines d’exercices pratiques.


🗺️ Vue d’Ensemble du Parcours

┌─────────────────────────────────────────────────────────────────────────────┐
│                                                                             │
│   🟦 DÉBUTANT ──────► 🟩 INTERMÉDIAIRE ──────► 🟥 AVANCÉ ──────► 🏆        │
│                                                                             │
│   Modules 01-13        Modules 14-26            Modules 27-35     SENIOR   │
│   + Projet 🎮          + Projet 📦              Spécialisation    READY    │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

🟦 Niveau 1 : Débutant — Fondations & Premiers Pipelines

AstucePrérequis

Aucun prérequis technique. Une curiosité pour les données et une motivation à apprendre suffisent !

🎯 Objectif : Construire des bases solides en Python, SQL, et découvrir l’écosystème Big Data.

📚 Modules

# Module Thèmes Clés
01 Introduction au Data Engineering Rôle du DE, écosystème, architectures Lambda/Kappa/Lakehouse
02 Linux & Bash Commandes essentielles, scripting, cron, permissions
03 Git & Versioning Branches, merge, rebase, workflows collaboratifs
04 Python Fondamental Syntaxe, structures de données, fichiers, exceptions
05 Python Data Processing POO, décorateurs, générateurs, context managers
06 Introduction BDD Relationnelles Concepts SGBD, modélisation, normalisation
07 SQL pour Data Engineers Requêtes, jointures, window functions, optimisation
08 Introduction Big Data Hadoop, HDFS, MapReduce, systèmes distribués
09 MongoDB NoSQL, CRUD, agrégations, indexation
10 Elasticsearch Recherche full-text, indexation, requêtes DSL
11 Introduction PySpark RDD, DataFrame, transformations, actions
12 Orchestration de Pipelines Concepts, scheduling, dépendances
13 Bonus : FastAPI API REST pour exposer vos données

🎮 Projet Intégrateur Débutant — Video Games Analytics

Pipeline complet : Kaggle CSV → Web Scraping → DuckDB + Elasticsearch → PySpark → FastAPI → Streamlit Dashboard

🚀 Accéder au projet

Ce que vous allez construire :

┌──────────────┐      ┌──────────────┐      ┌──────────────┐      ┌──────────────┐
│  📥 SOURCES  │      │ ⚙️ PROCESSING │      │ 💾 STOCKAGE  │      │📊 DASHBOARD  │
├──────────────┤      ├──────────────┤      ├──────────────┤      ├──────────────┤
│ Kaggle CSV   │─────▶│   Pandas     │─────▶│   DuckDB     │─────▶│   FastAPI    │
│ Web Scraping │      │   PySpark    │      │Elasticsearch │      │  Streamlit   │
└──────────────┘      └──────────────┘      └──────────────┘      └──────────────┘

✅ À la fin de ce niveau, vous savez :

  • Écrire des scripts Python professionnels
  • Manipuler des données avec SQL et PySpark
  • Comprendre les architectures Big Data
  • Versionner votre code avec Git
  • Construire un pipeline data de bout en bout

🟩 Niveau 2 : Intermédiaire — Industrialisation & Lakehouse

AstucePrérequis

Avoir complété le Niveau 1 ou équivalent (Python, SQL, bases Spark).

🎯 Objectif : Maîtriser les technologies d’entreprise : Docker, Kubernetes, Lakehouse, Streaming, Orchestration.

📚 Modules

# Module Thèmes Clés
14 Docker pour Data Engineers Images, containers, volumes, Dockerfile, Compose
15 Kubernetes Fondamentaux Pods, Deployments, Services, ConfigMaps, Secrets
16 K8s pour Data Workloads StatefulSets, Jobs, CronJobs, volumes persistants
17 Polars pour Data Engineering API Polars, lazy evaluation, comparaison Pandas/Spark
18 High Performance Python Profiling, optimisation, multiprocessing, async
19 PySpark Avancé Partitioning, caching, broadcast, UDF, optimisation
20 Spark SQL Deep Dive Catalyst, plans d’exécution, tuning, AQE
21 Spark on Kubernetes Spark Operator, SparkApplication, scaling, monitoring
22 Cloud Object Storage S3, GCS, Azure Blob, MinIO, IAM, performances
23 Table Formats (Delta, Iceberg) ACID, Time Travel, Schema Evolution, MERGE INTO
24 Kafka & Streaming Producers, Consumers, Topics, Partitions, Consumer Groups
25 dbt & Data Quality Models, Tests, Documentation, Great Expectations

📦 Projet Intégrateur Intermédiaire — E-commerce Olist

Pipeline Lakehouse : Kafka → Spark Streaming → Delta Lake → dbt → Dashboard

🚀 Accéder au projet

✅ À la fin de ce niveau, vous savez :

  • Containeriser et déployer des applications avec Docker/Kubernetes
  • Construire un Lakehouse avec Delta Lake ou Iceberg
  • Implémenter des pipelines streaming avec Kafka
  • Orchestrer des workflows complexes
  • Garantir la qualité des données avec dbt

🟥 Niveau 3 : Avancé — Architecture, Optimisation & Leadership

AstucePrérequis

Avoir complété le Niveau 2 ou expérience équivalente en entreprise.

🎯 Objectif : Atteindre le niveau Senior Data Engineer / Architecte Data avec une maîtrise des systèmes distribués, de l’architecture et du leadership technique.

📚 Modules

# Module Thèmes Clés
27 Kubernetes Deep Dive Operators, CRDs, Helm avancé, GitOps, troubleshooting
28 Orchestration Avancée Airflow 2.x, DAGs dynamiques, KubernetesPodOperator, Dagster
29 Messaging Distribué Kafka internals, Pulsar, RabbitMQ, patterns de messaging
30 Spark & Scala Deep Dive Internals Spark, Catalyst, Tungsten, optimisation bas niveau
31 Data Engineering pour le ML Feature Stores, pipelines ML, MLflow, model serving
32 Data Mesh & Contracts Data Products, Domain Ownership, Data Contracts, APIs
33 Realtime OLAP & Dashboards ClickHouse, Apache Druid, Pinot, dashboards temps réel
34 Patterns & Décisions d’Architecture ADR, RFC, trade-offs, design reviews, documentation
35 Leadership & Trade-offs Communication technique, mentoring, gestion de projet

✅ À la fin de ce niveau, vous savez :

  • Concevoir et défendre une architecture Data complète
  • Optimiser les performances à grande échelle
  • Implémenter la gouvernance et la sécurité des données
  • Mener des design reviews et rédiger des ADR/RFC
  • Guider et mentorer une équipe technique

🏆 Matrice des Compétences

Compétence 🟦 Débutant 🟩 Intermédiaire 🟥 Avancé
Python & SQL ⭐⭐ ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
PySpark ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
Spark Scala - - ⭐⭐⭐
Docker & Kubernetes - ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
Lakehouse (Delta/Iceberg) - ⭐⭐⭐⭐ ⭐⭐⭐⭐⭐
Streaming (Kafka) - ⭐⭐⭐ ⭐⭐⭐⭐⭐
Orchestration (Airflow) ⭐⭐⭐ ⭐⭐⭐⭐⭐
dbt & Data Quality - ⭐⭐⭐⭐ ⭐⭐⭐⭐
OLAP & Realtime - - ⭐⭐⭐⭐
MLOps & Feature Stores - - ⭐⭐⭐
Data Mesh & Governance - ⭐⭐⭐⭐⭐
Architecture & Design - ⭐⭐ ⭐⭐⭐⭐⭐
Leadership technique - - ⭐⭐⭐⭐⭐

📈 Conseils pour Réussir

Avertissement⚠️ Important

Les modules sont conçus pour être suivis dans l’ordre. Chaque module s’appuie sur les concepts du précédent.

  1. Pratiquez quotidiennement — La régularité bat l’intensité
  2. Faites tous les exercices — Pas de raccourcis
  3. Complétez les projets intégrateurs — Ils valident vos compétences
  4. Expérimentez — Modifiez le code, cassez des choses, apprenez des erreurs
  5. Documentez — Prenez des notes, créez votre propre référence
  6. Construisez votre portfolio — Les projets sont présentables en entretien

🚀 Commencer Maintenant

🟦 Commencer Niveau 1 🟩 Commencer Niveau 2 🟥 Commencer Niveau 3


🏠 Retour à l’accueil

Retour au sommet