Formation Data Engineering
Pipelines • ETL • Big Data
Formation complète pour concevoir, industrialiser et maintenir des architectures data modernes. Apprenez à construire des pipelines fiables et scalables avec les outils standards du métier : Python, Airflow, Spark, bases de données et cloud.
Objectifs de la formation
Comprendre les architectures data modernes (Lake, Warehouse, Lakehouse).
Développer des pipelines ETL/ELT robustes en Python.
Orchestrer des workflows avec Apache Airflow.
Traiter des volumes importants avec Apache Spark.
Déployer des solutions data sur le cloud.
Programme détaillé
1
Architecture Data Moderne
- Data Lake, Data Warehouse, Lakehouse
- ETL vs ELT
- Modélisation dimensionnelle
2
Python pour l’ETL
- Pandas avancé et traitement par lots
- APIs, bases de données et fichiers
- Automatisation et logging
3
Orchestration avec Airflow
- Création de DAGs complexes
- Scheduling, dépendances, retries
- Monitoring et alertes
4
Big Data avec Apache Spark
- Spark Core, DataFrames, Spark SQL
- Exécution sur cluster
- Optimisation des performances
5
Stockage & Cloud
- Bases SQL et entrepôts cloud
- NoSQL : MongoDB, Cassandra
- Stockage objet et services managés
6
Projet final & industrialisation
- Pipeline complet de bout en bout
- Tests, CI/CD data
- Mise en production et documentation
Modalités pratiques
Format : distanciel ou présentiel
Groupe : 12 participants maximum
Évaluation : projet final
Financement : OPCO /
Rejoignez le parcours Data Engineering le plus complet du marché.
Intégrer ce parcours