Pandas & NumPy
Manipulation de données avec Python
Formation intensive dédiée aux deux bibliothèques fondamentales de la Data Science : NumPy pour les calculs numériques rapides et Pandas pour la manipulation de données tabulaires. Idéal pour préparer vos datasets avant analyse ou Machine Learning.
Objectifs de la formation
Maîtriser les tableaux NumPy (ndarray)
Manipuler des DataFrames comme un pro
Nettoyer des jeux de données réels
Réaliser des agrégations complexes (groupby)
Effectuer des jointures (merge, concat)
Préparer un dataset propre pour scikit-learn
Programme détaillé
1
NumPy – Les bases du calcul scientifique
- Création et manipulation de ndarrays
- Indexation avancée & broadcasting
- Opérations mathématiques ultra-rapides
2
Pandas – Premiers pas
- Series et DataFrames
- Lecture/écriture (CSV, Excel, JSON, SQL)
- Sélection, filtrage et tri
3
Nettoyage & transformation
- Valeurs manquantes, doublons
- Renommage, remplacement, apply/map
- Création de nouvelles colonnes
4
Agrégations & statistiques
- groupby() puissant
- Pivot tables & crosstab
- Statistiques descriptives
5
Jointures & préparation ML
- merge(), concat(), join()
- Encodage (OneHot, LabelEncoder)
- Normalisation & feature engineering
Modalités pratiques
Pré-requis : bases de Python
Durée : 2 à 3 jours intensifs
Format : 100 % en ligne avec exercices pratiques
Projet final : nettoyage complet d’un dataset réel
Cette formation est souvent intégrée dans nos parcours Data Science et Intelligence Artificielle.
Intéressé(e) ? Parlons-en ensemble !