5$/h - Sciences des données (datascience) - Niveau 1

Retour

24 h

Informatique

5$/h – Sciences des données (datascience) – Niveau 1

Objectif général:

Cette formation pratique vise à acquérir les notions de base en sciences des données et plus spécifiquement en fouilles de données – data mining. À la fin de ce cours, les étudiants seront capables de mettre en place un processus de fouille de données selon un besoin exprimé, en langage Python, en réalisant un projet intégrateur. Décrire et exécuter le processus de fouille de données. Appliquer une technique descriptive et une technique prédictive.

Contenu du cours:

Introduction à la science de données

Objectifs de l’exploration des données
Approches de l’apprentissage automatique : supervisé, non supervisé et semi supervisé.
Données prétraitées vs données brutes
Matériels : CPU vs GPU
Logiciels spécialisés : Jupyter notebook, Spyder, Python, Pycharm
Bibliothèques à source ouverte disponibles : Numpy, Pandas, SciPy, Matplotlib
Applications de la science de données
Vision par ordinateur : reconnaissance faciale, analyse d’images médicale, télédétection.
Traitement naturel du langage
Reconnaissance automatique de la parole
Robotique

Langage de programmation Python : partie 1

Variable et affichage
Structures des données et structures algorithmiques
Fonctions, classes.

Langage de programmation Python : partie 2

La bibliothèque Numpy
La bibliothèque Panda
La bibliothèque Matplotlib

Analyse des données de type image et texte

Analyse des données de type image : Sources, extraction, préparation, visualisation des images.
Bibliothèques pour la préparation et la manipulation des images.
Analyse des données de type texte : Sources, normalisation du texte, vectorisation des mots (word embedding).
Application en vision par ordinateur
Application en traitement automatique du langage naturel

Apprentissage machine : apprentissage supervisé

Étapes d’un algorithme d’apprentissage supervisé : préparation des données, ingénierie des caractéristiques, choix de l’algorithme, teste et validation
Algorithmes d’apprentissage supervisé : Classification Bayésienne, Réseaux de neurones artificiels, Machine à vecteurs de support (SVM), Arbre de décision.
Application des algorithmes d’apprentissage supervisé : Vision par ordinateur, Reconnaissance de formes, Reconnaissance vocale, Traitement automatique du langage.

Apprentissage machine : apprentissage non supervisé

Étapes d’un algorithme d’apprentissage non supervisé : préparation des données, choix de l’algorithme, métriques d’évaluation, teste et validation.
Algorithmes d’apprentissage non supervisé ; K-means, Réduction de la dimensionnalité, Analyse de la composante principale, Réseaux de neurones artificiels.
Application des algorithmes d’apprentissage non supervisé : Détection des anomalies, le regroupement, réduction de la dimensionalité.

Analyse des données massives (Big data)

Données massives : disponibilité des données, données structurées vs non structurées, capacité de stockage et d’analyse.
Propriétés des données massives : Volume, Vélocité et Variété.
Outils des données massives :
Systèmes d’orchestration (Kubernetes, Docker swarm)
Traitement distribué (Apache Spark)
Stockage distribué (Apache Hadoop)
Bases de données (SQL vs No SQL)
Application des données massives : Apprentissage machine, science et recherche, détection des fraudes, santé, IoT.

Préalables

Connaissances de base en programmation et mathématiques de base.

Informatique

5$/h – Sciences des données (datascience) – Niveau 1

Objectif général:

Contenu du cours:

Préalables

Inscription

Collège de Bois-de-Boulogne