Les voitures autonomes, l’algorithme de reconnaissance faciale de Facebook, les recommandations sur Netflix, les chatbots, qu’ont-ils tous en commun ? Le Machine Learning. S’inscrivant dans le domaine de l’intelligence artificielle, c’est devenu un domaine phare à l’avenir très prometteur. Dans cet article nous vous proposons de décomposer toutes les étapes de modélisation d’un algorithme de Machine Learning.

A QUOI SERT LE MACHINE LEARNING ?

Ici nous vous avons proposé de suivre les étapes d’un projet Machine Learning et d’en étudier les applications. Le Machine Learning, ou apprentissage automatique se définit par la capacité d’un ordinateur à gérer des tâches sans qu’un développeur n’ait eu à coder chacune d’entre-elles. Alors qu’auparavant, chaque ligne de code décrivait ce que votre algorithme pouvait faire, cette fois l’algorithme est plus ou moins capable de gérer certaines étapes par lui même.

Plus simplement, le Machine Learning est une collection de modèles de prédiction basés sur de puissantes théories mathématiques. Retrouvez tous les projets Machine Learning de nos élèves, vous en verrez les applications très variées que l’on peut en avoir. Grâce aux différents modèles, vous allez être capable de définir si une personne va acheter un produit ou non, si une publicité performe mieux qu’une autre ou encore de reconnaître les mouvements humains (très utile dans le domaine de la réalité virtuelle).

Lors de ce worshop, c’est sur l’analyse de comportement d’achat que nous nous sommes penchés : prédire si un consommateur va acheter un produit donné selon 3 de ses caractéristiques, son âge, son sexe ainsi que son salaire.

Après avoir téléchargé Anaconda, qui nous donne accès à un vivier d’outils de programmation, ouvrons le logiciel Spyder.

COMPRENDRE LE DATASET

Pour coder vous même votre algorithme, vous pouvez rejoindre notre chaîne Slack. Dans les fichiers la chaîne #général, vous trouverez un fichier se nommant product.purchase.csv.
Vous y trouverez également l’intégralité du script en Python de cet atelier.
C’est sur cette base de données que nous allons travailler pour prédire le comportement d’achat de consommateurs d’un produit donné).
Nombre de lignes (les consommateurs) : 400
Nombre de colonnes (les caractéristiques de chaque consommateur : âge / sexe / genre) : 4

La dernière colonne indique soit 0 (ce consommateur n’a pas acheté ce produit), soit 1 (ce consommateur a acheté ce produit).

OUVRONS SPYDER ET COMMENÇONS À CODER !

Spyder est diviser en plusieurs sections :
– votre éditeur où vous allez entrer le script, votre coder en Python
– la console qui va interpréter votre script
– la fenêtre en haut à droite vous donne de l’aide, le dataset utilisé ainsi que les variables

1. IMPORTER LES LIBRAIRIES

Les librairies sont en fait un ensemble de fonctions, chacune servant à des étapes différentes
– numpy : des fonctions mathématiques et statistiques
– matpotlib & seaborn : cette librairie permet de faire des visualisations de données, permettant de bien présenter vos données
– pandas : permet de manipuler les données d’un dataset (une base de données)

1. IMPORTER LES LIBRAIRIES

Les librairies sont en fait un ensemble de fonctions, chacune servant à des étapes différentes
– numpy : des fonctions mathématiques et statistiques
– matpotlib & seaborn : cette librairie permet de faire des visualisations de données, permettant de bien présenter vos données
– pandas : permet de manipuler les données d’un dataset (une base de données)