Data Engineering
Pipelines, ETL & Big Data
Formation complète pour devenir Data Engineer opérationnel : concevoir des architectures data modernes, industrialiser des pipelines fiables et scalables avec les outils utilisés en entreprise (Python, Airflow, Spark, cloud).
Programme détaillé
1
Architecture Data Moderne
- Data Lake, Data Warehouse, Lakehouse
- ETL vs ELT – quand choisir quoi ?
- Modélisation dimensionnelle (Kimball)
2
Python pour l’ETL
- Pandas avancé & traitement par lots
- Connexion API, bases de données, fichiers
- Automatisation & logging
3
Airflow – Orchestration
- Création de DAGs complexes
- Scheduling, dépendances, retries
- Monitoring & alertes
4
Big Data avec Apache Spark
- Spark Core, RDD, DataFrames, Spark SQL
- Spark sur cluster (Databricks, EMR)
- Optimisation des jobs (partitioning, caching)
5
Stockage & Cloud
- Bases SQL (PostgreSQL, Snowflake)
- NoSQL (MongoDB, Cassandra)
- Cloud : S3, GCS, Azure Blob + services managés
6
Projet Final & Bonnes Pratiques
- Pipeline complet de A à Z
- Tests unitaires, CI/CD data
- Documentation & passage en production
Rejoignez le parcours Data Engineering le plus complet du marché
Prochaine session limitée à 12 participants – financement OPCO / CPF possible