Pandas & NumPy
Manipulation de données avec Python
Formation intensive dédiée aux deux bibliothèques fondamentales de la Data Science : NumPy pour les calculs numériques performants et Pandas pour la manipulation et le nettoyage de données tabulaires.
Objectifs de la formation
Maîtriser les tableaux NumPy (ndarray).
Manipuler des DataFrames Pandas efficacement.
Nettoyer et préparer des jeux de données réels.
Réaliser des agrégations complexes (groupby).
Effectuer des jointures (merge, concat).
Préparer un dataset prêt pour le Machine Learning.
Programme détaillé
1
Jour 1 – NumPy : calcul scientifique
- Création et manipulation de ndarrays
- Indexation avancée et broadcasting
- Opérations mathématiques vectorisées
2
Jour 2 – Pandas : fondamentaux
- Series et DataFrames
- Lecture / écriture (CSV, Excel, JSON)
- Sélection, filtrage et tri
3
Jour 3 – Nettoyage & transformation
- Valeurs manquantes et doublons
- Renommage, remplacement, apply / map
- Création de nouvelles colonnes
4
Jour 4 – Agrégations & statistiques
- groupby() avancé
- Pivot tables et crosstab
- Statistiques descriptives
5
Jour 5 – Jointures & préparation ML
- merge(), concat(), join()
- Encodage des variables
- Normalisation et feature engineering
Modalités pratiques
Pré-requis : bases de Python
Durée : 2 à 3 jours intensifs
Format : 100 % en ligne avec pratique
Projet final : nettoyage complet d’un dataset réel
Ce module est souvent intégré à nos parcours Data Science et
Intelligence Artificielle.
Intéressé(e) ? Échangeons ensemble.