Data Mining & Machine Learning Python

Réf. : DN-33388

Durée : 5 jours

Tarif : 3800,00 € HT

Objectifs

A l’issue de la formation, vous serez capable de :

Connaître et savoir utiliser les librairies incontournables de Python pour la data science : La Scipy Stack
Connaître et utiliser les principales librairies de visualisation de données et notamment orientées cartographie
Savoir manipuler des données volumineuses ne tenant pas en mémoire
Avoir une bonne compréhension de l’écosystème scientifique de Python,
savoir trouver ses librairies et juger de leur qualité

Contenu de la formation

L’écosystème scientifique Python

Il n’est pas facile d’y voir clair dans l’écosystème scientifique de Python tant les librairies sont variées et nombreuses.
Cette présentation vous apportera une vue d’ensemble et les éléments clefs qui vous aideront à choisir vos librairies et outils de travail pour vos projets de data science avec Python.
Les incontournables : Numpy, Scipy, Pandas, Matplotlib et iPython qui sont le ciment de toutes les autres librairies scientifiques
Panorama des librairies et logiciels scientifiques par domaine
Les critères permettant de juger de la qualité d’une librairie
Calculer avec des nombres réels: comprendre les erreurs de calculs
Les nombres réels, dans la plupart des langages, dont Python, utilisent la norme en virgule flottante.
Celle-ci n’est pas précise et peut générer des erreurs de calcul parfois bien gênantes.
La représentation des nombres réels
Comprendre les erreurs de calculs et les contourner
La scipy stack
La librairie Numpy qui signifie Numeric Python est la première que vous devez apprendre. Elle constitue avec Scipy, Matplotlib et Pandas le socle sur lequel s’appuient toutes les autres librairies scientifiques.
Manipuler des tableaux de nombres : Numpy
Différences avec les listes Python
Création, sélection, filtres et principales fonctions -Visualiser ses données : Matplotlib
Les concepts de la librairie
Principaux graphiques : nuages de points, courbes, histogrammes, boxplot, …
Fonctionnalités avancées : 3D, légendes, colorbar, manipuler les axes, annotations, …
Analyse de données : Pandas
Les fondements de la librairie : Manipuler des données de type CSV et Excel
Séries et Dataframes
Index, sélection de données, filtres/recherche, agrégations, jointures et fonctions avancées
Manipuler des séries temporelles
Les fonctions mathématiques avancées: Scipy
Statistiques, optimisation, interpolations/régressions, traitement d’images

Visualisation de données

Bien que Matplotlib constitue la première librairie de visualisation que vous devrez
apprendre, elle possède 2 limites majeures: elle ne sait pas gérer les données volumineuses et n’est pas adaptée au Web. Mais Python a su développer un riche écosystème de visualisation de données qui devrait pouvoir répondre à toutes vos attentes.
Présentation de l’écosystème de visualisation de données de Python
Les librairies orientées Web: Bokeh, Altair et Plotly
Les “écosystèmes” PyViz et HoloViz
La visualisation de données volumineuses/big data avec DataShader
Les statistiques avec Seaborn
Visualiser des données géospatiales
Posséder des données disposant de coordonnées géospatiales apporte une toute autre dimension à leur représentation. Python est très bien outillé dans ce domaine.
Convertir ses données d’un système de coordonnées à l’autre
Cartographie interactive “à la Open Street Map/Google Maps” avec Folium/iPyleaflet
Cartographie statique avec Cartopy
Autres librairies géospatiales

Manipulation de données volumineuses

Numpy et Pandas sont 2 librairies incroyables, mais elles ont 2 limites majeures : elles ne savent pas traiter des données de très grande volumétrie qui ne tiennent pas en mémoire et ne savent pas toujours paralléliser leurs calculs.
Python a su développer des solutions.
Les librairies h5py, pytables, netcdf4, xarray, iris, parquet permettant de lire vos fichiers scientifiques
Paralléliser ses calculs avec Dask
Paralléliser ses calculs avec CuDF
Manipuler des dataframes gigantesques avec Dask

Personnalisation

Sous réserve de contraintes techniques ou de confidentialité, nous vous proposons de personnaliser la formation en réalisant des exercices directement sur vos données métiers.
Apprentissage et analyse statistique avec scikit learn & statsmodels *Revue des techniques *L’analyse discriminante *La régression logistique *Les arbres de décision *Gestion des ensembles d’apprentissage et de test *Évaluation des modèles *Introduction à l’utilisation de Spark avec Python (pyspark).

Public

Developeur Pynthon

Pré-requis

Avoir suivi en amont la formation

Python – Bases et introduction aux librairies scientifiques.

Méthodes pédagogiques

Alternance d’apports théoriques, d’exercices pratiques et d’études de cas.

Réf. : DN-33388

Durée : 5 jours

Tarif : 3800,00 € HT

Partager cette formation

Demande de devis

Inter
Intra
Sur-mesure

Format	Paris - Lille
Durée	5 jours
Prix	3800 € HT

Demande de devis

Format	Dans vos locaux ou à distance
Durée	5 jours
Prix	Nous contacter

Demande de devis

Vous souhaitez une formation sur-mesure ou vous disposez d’un cahier des charges ?

Nous contacter

Prochaines sessions

06/05/2024

24/06/2024

07/10/2024

18/11/2024

30/12/2024

14/04/2025

*Sous réserve de maintien de la session
Sessions inter entreprises ouvertes à partir de 3 participants
Intra : base tarifaire pour un groupe de 3 personnes

Télécharger la fiche

Nouvelles formations

Dernières actualités

Formation Administration Cybersécurité RNCP niveau 6

23 mars 2024

Formation cybersécurité Garantie 1er Trimestre 2024

26 janvier 2024

Formation NIS2 maitrisez la Directive et préparer votre organisation à sa mise en place

23 novembre 2023

Nous contacter

au 01 85 09 69 75
être rappelé
par email

Nous suivre

DNDA
Siege Social : 26 Av de Tourville 75007 Paris
Agence : 128 rue Chanzy 59298 Hellemmes
Tél : 01 85 09 69 75

Code NAF 6202 A
N° SIRET 832 107 379 00014
Déclaration activité 11 75 63235 75
TVA FR 868 321 073 79 – TVA Acquittée sur les encaissements
SAS capital : 10 000 €
DND Agency © 2021 – Tous droits réservé

Data Mining & Machine Learning Python

Objectifs

Contenu de la formation

L’écosystème scientifique Python

Public

Pré-requis

Méthodes pédagogiques

Demande de devis

Prochaines sessions

Nouvelles formations

Formation “Détection et réponse aux incidents de sécurité avancée”

Sécurité des objets connectés

ISO 27004 Indicateurs et tableaux de bord cybersécurité

Préparation au CRISC

Préparation au CISM

Dernières actualités

Formation Administration Cybersécurité RNCP niveau 6

Formation cybersécurité Garantie 1er Trimestre 2024

Formation NIS2 maitrisez la Directive et préparer votre organisation à sa mise en place

Nous contacter

Nous suivre