Formation Data Engineering

Pipelines • ETL • Big Data

Formation complète pour concevoir, industrialiser et maintenir des architectures data modernes. Apprenez à construire des pipelines fiables et scalables avec les outils standards du métier : Python, Airflow, Spark, bases de données et cloud.

Objectifs de la formation

Comprendre les architectures data modernes (Lake, Warehouse, Lakehouse).

Développer des pipelines ETL/ELT robustes en Python.

Orchestrer des workflows avec Apache Airflow.

Traiter des volumes importants avec Apache Spark.

Déployer des solutions data sur le cloud.

Programme détaillé

Architecture Data Moderne

Data Lake, Data Warehouse, Lakehouse
ETL vs ELT
Modélisation dimensionnelle

Python pour l’ETL

Pandas avancé et traitement par lots
APIs, bases de données et fichiers
Automatisation et logging

Orchestration avec Airflow

Création de DAGs complexes
Scheduling, dépendances, retries
Monitoring et alertes

Big Data avec Apache Spark

Spark Core, DataFrames, Spark SQL
Exécution sur cluster
Optimisation des performances

Stockage & Cloud

Bases SQL et entrepôts cloud
NoSQL : MongoDB, Cassandra
Stockage objet et services managés

Projet final & industrialisation

Pipeline complet de bout en bout
Tests, CI/CD data
Mise en production et documentation

Modalités pratiques

Format : distanciel ou présentiel

Groupe : 12 participants maximum

Évaluation : projet final

Financement : OPCO /

Rejoignez le parcours Data Engineering le plus complet du marché.

Nous contacter