Savoir analyser des données et en tirer des résultats n’est qu’une partie du travail du Data Scientist. Présenter des résultats de manière synthétique et pertinente entre aussi dans l’arsenal des compétences nécessaires pour exceller dans le métier. C’est ce qu’on appelle la Data Visualisation. Durant ce workshop, Kent Aquereburu, Data Scientist chez Société Générale, vous présentera les best-practices à connaître pour réussir dans ce domaine.

Retrouvez les slides du workshops sur SlideShare

PHASES PRÉLIMINAIRES D'UN PROJET DE MACHINE LEARNING

Avant même de commencer un projet en Data Science, il est important de comprendre le besoin-métier de l’entreprise car c’est le meilleur moyen de savoir comment préparer nos données et de choisir les variables qui vont avoir un impact sur ce que l’on cherche à prédire.

Une fois que le besoin est compris, on va tenter de bien définir la variable que l’on essaie de prédire. Cela peut être l’attrition, un revenu ou encore une catégorie par exemple.

Enfin, tentons de savoir ce pourquoi nous faisons du Machine Learning. Est ce qu’on cherche à prédire un phénomène ou expliquer les causes d’un phénomène ou les deux ? En fonction de la réponse, l’utilisation que nous allons faire d’un modèle va être différente.

En effet, il se peut que vous ayez des corrélations qui n’aient rien à voir entre elles. Par exemple, on a trouvé une corrélation entre le taux de suicide aux US et les dépenses budgétaires des américains dans les sciences, les technologies et l’astronomie. Cependant cette corrélation est fallacieuse car le taux de suicide et les dépenses budgétaires n’ont rien à voir entre elles.

Dans un modèle de Machine Learning, on pourrait inclure ces deux variables et le modèle serait tout à fait capable de faire des prédictions. En revanche, on aurait beaucoup plus de mal à donner une explication à tout ceci. C’est pour cela qu’il faudra trouver des variables qui peuvent expliquer d’une meilleure manière la chose que l’on veut prédire.

LES GRANDES ÉTAPES D'UN PROJET MACHINE LEARNING

Voici comment on pourrait classer les étapes d’un projet de Machine Learning :

  1. Récupération des données brutes
  2. Prétraitement des données
  3. Feature Engineering
  4. Découpage de la base de données en des données tests et des données d’entrainement
  5. Choix de l’algorithme
  6. Apprentissage de l’algorithme
  7. Prédiction des données test
  8. Prédiction sur les données réelles
  9. Restitution des résultats

La récupération des données brutes peut se faire de n’importe quelles sources de données : Il y a, par exemple, des API qui permettent d’obtenir des données web, des données CRM ou encore des données sur des fichiers excel.

Le prétraitement de données permet de « nettoyer » cette base de données. En effet, il se peut qu’il y ait des données manquantes ou incohérentes. Vous allez donc tout faire pour améliorer la « qualité » de vos données car c’est ce qui va permettre à votre modèle d’augmenter ses performances prédictives.

Feature Engineering est, en français, le choix des variables qui vont effectivement avoir une influence sur ce que vous voulez prédire. Le but est de raffiner les données prétraitées et ne garder uniquement ce qu’il y aura vraiment d’utile pour le modèle. La data visualisation intervient dans cette partie du projet car on a besoin d’explorer les différentes variables pour déterminer ce qui aura une influence ou non.

Dans la quatrième partie, on découpe les données en une base d’entraînement et une base de test. La raison pour laquelle on fait cela est pour voir tout de suite si notre modèle est effectivement performant ou non.

On va ensuite choisir l’algorithme que l’on va utiliser. Ce modèle dépend de votre problématique et des capacités de votre ordinateur. Si vous souhaitez en savoir plus sur les modèles de Machine Learning, n’hésitez pas à regarder notre article d’introduction au Machine Learning

Une fois que votre modèle est prêt et entrainé, vous allez l’utiliser pour prédire vos données réelles et restituer les résultats. C’est dans cette partie aussi que la data visualisation va entrer en jeu.

BEST PRACTICES EN DATA VISUALISATION

Définissons tout d’abord ce qu’est la Data Visualisation :
La DataViz consiste à transformer les données brutes en information visuelle afin de communiquer un message

Le but de la data visualisation est de mettre en lumière une partie de vos résulats au lieu de faire une présentation exhaustive des données. Il n’est en effet pas rare d’avoir travaillé pendant plusieurs jours sur un projet de Machine Learning mais n’avoir que quelques minutes pour présenter vos résultats. C’est pour cela qu’il faut pouvoir sortir les points les plus importants et d’être synthétique.

En termes de bonnes pratiques, il est important tout d’abord de ne pas vouloir faire des graphique à tout bout de champ si une phrase peut suffire.

Lorsque vous construisez un graphique, gardez toujours en tête qu’ils peuvent être facilement trompeurs. Même si vous pensez que votre message est clair, il peut parfois être mal interprété. Cela peut notamment arriver si vous tronquez les axes de vos graphiques. Par exemple, au lieu de commencer votre graphique à 0%, vous le commencez à 90% et alors vous voyez de grosses différences qui ne sont en fait que factices puisqu’il n’y a en fait pas forcément énormément de différence en 90% et 100%.

Evitez les graphiques à double axe dans les ordonnées car ils créent des corrélations fallacieuses. Le mieux est de faire deux graphiques avec l’ordonnée correspondante dans chacun d’eux.

Les couleurs ont une importance. Privilégiez les couleurs franchement différentes les unes des autres et ne mettez pas plus de 6 couleurs différentes par graphique. Les couleurs ont aussi un code. Par exemple, le rouge exprime le danger, le vert exprime la sérénité. Il est important que vous soyez conscient de ces codes pour ne pas mettre des couleurs qui peuvent être interprétées de la mauvaise façon par votre audience.

Les graduations ne sont pas forcément utiles si votre but est de simplement voir une tendance plutôt qu’un chiffre précis. Enfin, triez vos données. Il est vraiment plus simple de comprendre des données triées que des données non-triées.