📊 Curriculum Complet

Vue d’ensemble du programme Data Engineering — From Zero to Hero

🎯 Objectif du Programme

Ce bootcamp vous emmène de zéro à Senior Data Engineer à travers 35 modules progressifs, 2 projets intégrateurs et des centaines d’exercices pratiques.

🗺️ Vue d’Ensemble du Parcours

┌─────────────────────────────────────────────────────────────────────────────┐
│                                                                             │
│   🟦 DÉBUTANT ──────► 🟩 INTERMÉDIAIRE ──────► 🟥 AVANCÉ ──────► 🏆        │
│                                                                             │
│   Modules 01-13        Modules 14-26            Modules 27-35     SENIOR   │
│   + Projet 🎮          + Projet 📦              Spécialisation    READY    │
│                                                                             │
└─────────────────────────────────────────────────────────────────────────────┘

🟦 Niveau 1 : Débutant — Fondations & Premiers Pipelines

Prérequis

Aucun prérequis technique. Une curiosité pour les données et une motivation à apprendre suffisent !

🎯 Objectif : Construire des bases solides en Python, SQL, et découvrir l’écosystème Big Data.

📚 Modules

#	Module	Thèmes Clés
01	Introduction au Data Engineering	Rôle du DE, écosystème, architectures Lambda/Kappa/Lakehouse
02	Linux & Bash	Commandes essentielles, scripting, cron, permissions
03	Git & Versioning	Branches, merge, rebase, workflows collaboratifs
04	Python Fondamental	Syntaxe, structures de données, fichiers, exceptions
05	Python Data Processing	POO, décorateurs, générateurs, context managers
06	Introduction BDD Relationnelles	Concepts SGBD, modélisation, normalisation
07	SQL pour Data Engineers	Requêtes, jointures, window functions, optimisation
08	Introduction Big Data	Hadoop, HDFS, MapReduce, systèmes distribués
09	MongoDB	NoSQL, CRUD, agrégations, indexation
10	Elasticsearch	Recherche full-text, indexation, requêtes DSL
11	Introduction PySpark	RDD, DataFrame, transformations, actions
12	Orchestration de Pipelines	Concepts, scheduling, dépendances
13	Bonus : FastAPI	API REST pour exposer vos données

🎮 Projet Intégrateur Débutant — Video Games Analytics

Pipeline complet : Kaggle CSV → Web Scraping → DuckDB + Elasticsearch → PySpark → FastAPI → Streamlit Dashboard

🚀 Accéder au projet

Ce que vous allez construire :

┌──────────────┐      ┌──────────────┐      ┌──────────────┐      ┌──────────────┐
│  📥 SOURCES  │      │ ⚙️ PROCESSING │      │ 💾 STOCKAGE  │      │📊 DASHBOARD  │
├──────────────┤      ├──────────────┤      ├──────────────┤      ├──────────────┤
│ Kaggle CSV   │─────▶│   Pandas     │─────▶│   DuckDB     │─────▶│   FastAPI    │
│ Web Scraping │      │   PySpark    │      │Elasticsearch │      │  Streamlit   │
└──────────────┘      └──────────────┘      └──────────────┘      └──────────────┘

✅ À la fin de ce niveau, vous savez :

Écrire des scripts Python professionnels
Manipuler des données avec SQL et PySpark
Comprendre les architectures Big Data
Versionner votre code avec Git
Construire un pipeline data de bout en bout

🟩 Niveau 2 : Intermédiaire — Industrialisation & Lakehouse

Prérequis

Avoir complété le Niveau 1 ou équivalent (Python, SQL, bases Spark).

🎯 Objectif : Maîtriser les technologies d’entreprise : Docker, Kubernetes, Lakehouse, Streaming, Orchestration.

📚 Modules

#	Module	Thèmes Clés
14	Docker pour Data Engineers	Images, containers, volumes, Dockerfile, Compose
15	Kubernetes Fondamentaux	Pods, Deployments, Services, ConfigMaps, Secrets
16	K8s pour Data Workloads	StatefulSets, Jobs, CronJobs, volumes persistants
17	Polars pour Data Engineering	API Polars, lazy evaluation, comparaison Pandas/Spark
18	High Performance Python	Profiling, optimisation, multiprocessing, async
19	PySpark Avancé	Partitioning, caching, broadcast, UDF, optimisation
20	Spark SQL Deep Dive	Catalyst, plans d’exécution, tuning, AQE
21	Spark on Kubernetes	Spark Operator, SparkApplication, scaling, monitoring
22	Cloud Object Storage	S3, GCS, Azure Blob, MinIO, IAM, performances
23	Table Formats (Delta, Iceberg)	ACID, Time Travel, Schema Evolution, MERGE INTO
24	Kafka & Streaming	Producers, Consumers, Topics, Partitions, Consumer Groups
25	dbt & Data Quality	Models, Tests, Documentation, Great Expectations

📦 Projet Intégrateur Intermédiaire — E-commerce Olist

Pipeline Lakehouse : Kafka → Spark Streaming → Delta Lake → dbt → Dashboard

🚀 Accéder au projet

✅ À la fin de ce niveau, vous savez :

Containeriser et déployer des applications avec Docker/Kubernetes
Construire un Lakehouse avec Delta Lake ou Iceberg
Implémenter des pipelines streaming avec Kafka
Orchestrer des workflows complexes
Garantir la qualité des données avec dbt

🟥 Niveau 3 : Avancé — Architecture, Optimisation & Leadership

Prérequis

Avoir complété le Niveau 2 ou expérience équivalente en entreprise.

🎯 Objectif : Atteindre le niveau Senior Data Engineer / Architecte Data avec une maîtrise des systèmes distribués, de l’architecture et du leadership technique.

📚 Modules

#	Module	Thèmes Clés
27	Kubernetes Deep Dive	Operators, CRDs, Helm avancé, GitOps, troubleshooting
28	Orchestration Avancée	Airflow 2.x, DAGs dynamiques, KubernetesPodOperator, Dagster
29	Messaging Distribué	Kafka internals, Pulsar, RabbitMQ, patterns de messaging
30	Spark & Scala Deep Dive	Internals Spark, Catalyst, Tungsten, optimisation bas niveau
31	Data Engineering pour le ML	Feature Stores, pipelines ML, MLflow, model serving
32	Data Mesh & Contracts	Data Products, Domain Ownership, Data Contracts, APIs
33	Realtime OLAP & Dashboards	ClickHouse, Apache Druid, Pinot, dashboards temps réel
34	Patterns & Décisions d’Architecture	ADR, RFC, trade-offs, design reviews, documentation
35	Leadership & Trade-offs	Communication technique, mentoring, gestion de projet

✅ À la fin de ce niveau, vous savez :

Concevoir et défendre une architecture Data complète
Optimiser les performances à grande échelle
Implémenter la gouvernance et la sécurité des données
Mener des design reviews et rédiger des ADR/RFC
Guider et mentorer une équipe technique

🏆 Matrice des Compétences

Compétence	🟦 Débutant	🟩 Intermédiaire	🟥 Avancé
Python & SQL	⭐⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
PySpark	⭐	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Spark Scala	-	-	⭐⭐⭐
Docker & Kubernetes	-	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Lakehouse (Delta/Iceberg)	-	⭐⭐⭐⭐	⭐⭐⭐⭐⭐
Streaming (Kafka)	-	⭐⭐⭐	⭐⭐⭐⭐⭐
Orchestration (Airflow)	⭐	⭐⭐⭐	⭐⭐⭐⭐⭐
dbt & Data Quality	-	⭐⭐⭐⭐	⭐⭐⭐⭐
OLAP & Realtime	-	-	⭐⭐⭐⭐
MLOps & Feature Stores	-	-	⭐⭐⭐
Data Mesh & Governance	-	⭐	⭐⭐⭐⭐⭐
Architecture & Design	-	⭐⭐	⭐⭐⭐⭐⭐
Leadership technique	-	-	⭐⭐⭐⭐⭐

📈 Conseils pour Réussir

⚠️ Important

Les modules sont conçus pour être suivis dans l’ordre. Chaque module s’appuie sur les concepts du précédent.

Pratiquez quotidiennement — La régularité bat l’intensité
Faites tous les exercices — Pas de raccourcis
Complétez les projets intégrateurs — Ils valident vos compétences
Expérimentez — Modifiez le code, cassez des choses, apprenez des erreurs
Documentez — Prenez des notes, créez votre propre référence
Construisez votre portfolio — Les projets sont présentables en entretien

🚀 Commencer Maintenant

🟦 Commencer Niveau 1 🟩 Commencer Niveau 2 🟥 Commencer Niveau 3

🏠 Retour à l’accueil

Retour au sommet