📊 Curriculum Complet
Vue d’ensemble du programme Data Engineering — From Zero to Hero
Ce bootcamp vous emmène de zéro à Senior Data Engineer à travers 35 modules progressifs, 2 projets intégrateurs et des centaines d’exercices pratiques.
🗺️ Vue d’Ensemble du Parcours
┌─────────────────────────────────────────────────────────────────────────────┐
│ │
│ 🟦 DÉBUTANT ──────► 🟩 INTERMÉDIAIRE ──────► 🟥 AVANCÉ ──────► 🏆 │
│ │
│ Modules 01-13 Modules 14-26 Modules 27-35 SENIOR │
│ + Projet 🎮 + Projet 📦 Spécialisation READY │
│ │
└─────────────────────────────────────────────────────────────────────────────┘
🟦 Niveau 1 : Débutant — Fondations & Premiers Pipelines
Aucun prérequis technique. Une curiosité pour les données et une motivation à apprendre suffisent !
🎯 Objectif : Construire des bases solides en Python, SQL, et découvrir l’écosystème Big Data.
📚 Modules
| # | Module | Thèmes Clés |
|---|---|---|
| 01 | Introduction au Data Engineering | Rôle du DE, écosystème, architectures Lambda/Kappa/Lakehouse |
| 02 | Linux & Bash | Commandes essentielles, scripting, cron, permissions |
| 03 | Git & Versioning | Branches, merge, rebase, workflows collaboratifs |
| 04 | Python Fondamental | Syntaxe, structures de données, fichiers, exceptions |
| 05 | Python Data Processing | POO, décorateurs, générateurs, context managers |
| 06 | Introduction BDD Relationnelles | Concepts SGBD, modélisation, normalisation |
| 07 | SQL pour Data Engineers | Requêtes, jointures, window functions, optimisation |
| 08 | Introduction Big Data | Hadoop, HDFS, MapReduce, systèmes distribués |
| 09 | MongoDB | NoSQL, CRUD, agrégations, indexation |
| 10 | Elasticsearch | Recherche full-text, indexation, requêtes DSL |
| 11 | Introduction PySpark | RDD, DataFrame, transformations, actions |
| 12 | Orchestration de Pipelines | Concepts, scheduling, dépendances |
| 13 | Bonus : FastAPI | API REST pour exposer vos données |
🎮 Projet Intégrateur Débutant — Video Games Analytics
Pipeline complet : Kaggle CSV → Web Scraping → DuckDB + Elasticsearch → PySpark → FastAPI → Streamlit Dashboard
Ce que vous allez construire :
┌──────────────┐ ┌──────────────┐ ┌──────────────┐ ┌──────────────┐
│ 📥 SOURCES │ │ ⚙️ PROCESSING │ │ 💾 STOCKAGE │ │📊 DASHBOARD │
├──────────────┤ ├──────────────┤ ├──────────────┤ ├──────────────┤
│ Kaggle CSV │─────▶│ Pandas │─────▶│ DuckDB │─────▶│ FastAPI │
│ Web Scraping │ │ PySpark │ │Elasticsearch │ │ Streamlit │
└──────────────┘ └──────────────┘ └──────────────┘ └──────────────┘
✅ À la fin de ce niveau, vous savez :
- Écrire des scripts Python professionnels
- Manipuler des données avec SQL et PySpark
- Comprendre les architectures Big Data
- Versionner votre code avec Git
- Construire un pipeline data de bout en bout
🟩 Niveau 2 : Intermédiaire — Industrialisation & Lakehouse
Avoir complété le Niveau 1 ou équivalent (Python, SQL, bases Spark).
🎯 Objectif : Maîtriser les technologies d’entreprise : Docker, Kubernetes, Lakehouse, Streaming, Orchestration.
📚 Modules
| # | Module | Thèmes Clés |
|---|---|---|
| 14 | Docker pour Data Engineers | Images, containers, volumes, Dockerfile, Compose |
| 15 | Kubernetes Fondamentaux | Pods, Deployments, Services, ConfigMaps, Secrets |
| 16 | K8s pour Data Workloads | StatefulSets, Jobs, CronJobs, volumes persistants |
| 17 | Polars pour Data Engineering | API Polars, lazy evaluation, comparaison Pandas/Spark |
| 18 | High Performance Python | Profiling, optimisation, multiprocessing, async |
| 19 | PySpark Avancé | Partitioning, caching, broadcast, UDF, optimisation |
| 20 | Spark SQL Deep Dive | Catalyst, plans d’exécution, tuning, AQE |
| 21 | Spark on Kubernetes | Spark Operator, SparkApplication, scaling, monitoring |
| 22 | Cloud Object Storage | S3, GCS, Azure Blob, MinIO, IAM, performances |
| 23 | Table Formats (Delta, Iceberg) | ACID, Time Travel, Schema Evolution, MERGE INTO |
| 24 | Kafka & Streaming | Producers, Consumers, Topics, Partitions, Consumer Groups |
| 25 | dbt & Data Quality | Models, Tests, Documentation, Great Expectations |
📦 Projet Intégrateur Intermédiaire — E-commerce Olist
Pipeline Lakehouse : Kafka → Spark Streaming → Delta Lake → dbt → Dashboard
✅ À la fin de ce niveau, vous savez :
- Containeriser et déployer des applications avec Docker/Kubernetes
- Construire un Lakehouse avec Delta Lake ou Iceberg
- Implémenter des pipelines streaming avec Kafka
- Orchestrer des workflows complexes
- Garantir la qualité des données avec dbt
🟥 Niveau 3 : Avancé — Architecture, Optimisation & Leadership
Avoir complété le Niveau 2 ou expérience équivalente en entreprise.
🎯 Objectif : Atteindre le niveau Senior Data Engineer / Architecte Data avec une maîtrise des systèmes distribués, de l’architecture et du leadership technique.
📚 Modules
| # | Module | Thèmes Clés |
|---|---|---|
| 27 | Kubernetes Deep Dive | Operators, CRDs, Helm avancé, GitOps, troubleshooting |
| 28 | Orchestration Avancée | Airflow 2.x, DAGs dynamiques, KubernetesPodOperator, Dagster |
| 29 | Messaging Distribué | Kafka internals, Pulsar, RabbitMQ, patterns de messaging |
| 30 | Spark & Scala Deep Dive | Internals Spark, Catalyst, Tungsten, optimisation bas niveau |
| 31 | Data Engineering pour le ML | Feature Stores, pipelines ML, MLflow, model serving |
| 32 | Data Mesh & Contracts | Data Products, Domain Ownership, Data Contracts, APIs |
| 33 | Realtime OLAP & Dashboards | ClickHouse, Apache Druid, Pinot, dashboards temps réel |
| 34 | Patterns & Décisions d’Architecture | ADR, RFC, trade-offs, design reviews, documentation |
| 35 | Leadership & Trade-offs | Communication technique, mentoring, gestion de projet |
✅ À la fin de ce niveau, vous savez :
- Concevoir et défendre une architecture Data complète
- Optimiser les performances à grande échelle
- Implémenter la gouvernance et la sécurité des données
- Mener des design reviews et rédiger des ADR/RFC
- Guider et mentorer une équipe technique
🏆 Matrice des Compétences
| Compétence | 🟦 Débutant | 🟩 Intermédiaire | 🟥 Avancé |
|---|---|---|---|
| Python & SQL | ⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| PySpark | ⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Spark Scala | - | - | ⭐⭐⭐ |
| Docker & Kubernetes | - | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Lakehouse (Delta/Iceberg) | - | ⭐⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Streaming (Kafka) | - | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| Orchestration (Airflow) | ⭐ | ⭐⭐⭐ | ⭐⭐⭐⭐⭐ |
| dbt & Data Quality | - | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ |
| OLAP & Realtime | - | - | ⭐⭐⭐⭐ |
| MLOps & Feature Stores | - | - | ⭐⭐⭐ |
| Data Mesh & Governance | - | ⭐ | ⭐⭐⭐⭐⭐ |
| Architecture & Design | - | ⭐⭐ | ⭐⭐⭐⭐⭐ |
| Leadership technique | - | - | ⭐⭐⭐⭐⭐ |
📈 Conseils pour Réussir
Les modules sont conçus pour être suivis dans l’ordre. Chaque module s’appuie sur les concepts du précédent.
- Pratiquez quotidiennement — La régularité bat l’intensité
- Faites tous les exercices — Pas de raccourcis
- Complétez les projets intégrateurs — Ils valident vos compétences
- Expérimentez — Modifiez le code, cassez des choses, apprenez des erreurs
- Documentez — Prenez des notes, créez votre propre référence
- Construisez votre portfolio — Les projets sont présentables en entretien