Qu'est-ce que la Data Visualisation ou Dataviz ?

Sommaire

Savoir analyser des données et en tirer des résultats n’est qu’une partie du travail du Data Scientist ou Data Analyst. Présenter des résultats de manière synthétique et pertinente entre aussi dans l’arsenal des compétences d'un Data Analyst. C’est ce qu’on appelle la Data Visualisation. Durant un workshop que nous avons résumé dans cet article, Kent Aquereburu, Data Scientist chez Société Générale, nous a présenté les best-practices à connaître pour réussir dans ce domaine.

‍

Qu'est-ce que la Data Visualisation ?

 La DataViz consiste à transformer les données brutes en information visuelle afin de communiquer un message.

Le but de la data visualisation est de mettre en lumière une partie de vos résultats au lieu de faire une présentation exhaustive des données. Il n’est en effet pas rare d’avoir travaillé pendant plusieurs jours sur un projet de Machine Learning mais n’avoir que quelques minutes pour présenter vos résultats. C’est pour cela qu’il faut pouvoir sortir les points les plus importants et d’être synthétique. Pour se faire, vous pouvez utiliser divers outils, tels que Tableau ou encore Power BI. Nous avons d'ailleurs listé les meilleures formations Power BI disponibles sur le marché !

‍

Quelles sont les bonnes pratiques de Data Viz ?

‍

En termes de bonnes pratiques, il est important tout d’abord de ne pas vouloir faire des graphiques à tout bout de champ si une phrase peut suffire.

Lorsque vous construisez un graphique, gardez toujours en tête qu’ils peuvent être facilement trompeurs. Même si vous pensez que votre message est clair, il peut parfois être mal interprété. Cela peut notamment arriver si vous tronquez les axes de vos graphiques. Par exemple, au lieu de commencer votre graphique à 0%, vous le commencez à 90% et alors vous voyez de grosses différences qui ne sont en fait que factices puisqu’il n’y a en fait pas forcément énormément de différence en 90% et 100%.

Evitez les graphiques à double axe dans les ordonnées car ils créent des corrélations fallacieuses. Le mieux est de faire deux graphiques avec l’ordonnée correspondante dans chacun d’eux.

Les couleurs ont une importance. Privilégiez les couleurs franchement différentes les unes des autres et ne mettez pas plus de 6 couleurs différentes par graphique. Les couleurs ont aussi un code. Par exemple, le rouge exprime le danger, le vert exprime la sérénité. Il est important que vous soyez conscient de ces codes pour ne pas mettre des couleurs qui peuvent être interprétées de la mauvaise façon par votre audience.

Les graduations ne sont pas forcément utiles si votre but est de simplement voir une tendance plutôt qu’un chiffre précis. Enfin, triez vos données. Il est vraiment plus simple de comprendre des données triées que des données non-triées.

Vous souhaitez en apprendre plus sur la Data Visualisation ? Nous avons recensé les meilleures formations en Data Visualisation.

‍

Les phases préliminaires d'un projet Machine Learning

Avant même de commencer un projet en Data, il est important de comprendre le besoin métier de l’entreprise car c’est le meilleur moyen de savoir comment préparer nos données et de choisir les variables qui vont avoir un impact sur ce que l’on cherche à prédire. Toutes ces compétences clés sont enseignées dans notre formation pour devenir Data Analyst.

Une fois que le besoin est compris, on va tenter de bien définir la variable que l’on essaie de prédire. Cela peut être l’attrition, un revenu ou encore une catégorie par exemple.

Enfin, tentons de savoir ce pourquoi nous faisons du Machine Learning. Est ce qu’on cherche à prédire un phénomène ou expliquer les causes d’un phénomène ou les deux ? En fonction de la réponse, l’utilisation que nous allons faire d’un modèle va être différente. En effet, il se peut que vous ayez des corrélations qui n’aient rien à voir entre elles.

Par exemple, on a trouvé une corrélation entre le taux de suicide aux US et les dépenses budgétaires des américains dans les sciences, les technologies et l’astronomie. Cependant cette corrélation est fallacieuse car le taux de suicide et les dépenses budgétaires n’ont rien à voir entre elles.

Dans un modèle de Machine Learning, on pourrait inclure ces deux variables et le modèle serait tout à fait capable de faire des prédictions. En revanche, on aurait beaucoup plus de mal à donner une explication à tout ceci. C’est pour cela qu’il faudra trouver des variables qui peuvent expliquer d’une meilleure manière la chose que l’on veut prédire les grandes étapes d'un projet Machine Learning.

‍

Voici comment on pourrait classer les étapes d’un projet de Machine Learning :

1. Récupération des données brutes
2. Pré-traitement des données
3. Feature Engineering
4. Découpage de la base de données en des données tests et des données d’entrainement
5. Choix de l’algorithme
6. Apprentissage de l’algorithme
7. Prédiction des données test
8.Prédiction sur les données réelles
9. Restitution des résultats

La récupération des données brutes peut se faire de n’importe quelles sources de données : Il y a, par exemple, des API qui permettent d’obtenir des données web, des données CRM ou encore des données sur des fichiers excel.

Le pré-traitement de données permet de « nettoyer » cette base de données. En effet, il se peut qu’il y ait des données manquantes ou incohérentes. Vous allez donc tout faire pour améliorer la « qualité » de vos données car c’est ce qui va permettre à votre modèle d’augmenter ses performances prédictives.

Feature Engineering est, en français, le choix des variables qui vont effectivement avoir une influence sur ce que vous voulez prédire.

Le but est de raffiner les données prétraitées et ne garder uniquement ce qu’il y aura vraiment d’utile pour le modèle. La data visualisation intervient dans cette partie du projet car on a besoin d’explorer les différentes variables pour déterminer ce qui aura une influence ou non.

Dans la quatrième partie, on découpe les données en une base d’entraînement et une base de test. La raison pour laquelle on fait cela est pour voir tout de suite si notre modèle est effectivement performant ou non.

On va ensuite choisir l’algorithme que l’on va utiliser. Ce modèle dépend de votre problématique et des capacités de votre ordinateur. Si vous souhaitez en savoir plus sur les modèles de Machine Learning, n’hésitez pas à regarder notre article d’introduction au Machine Learning.

Une fois que votre modèle est prêt et entrainé, vous allez l’utiliser pour prédire vos données réelles et restituer les résultats. C’est dans cette partie aussi que la data visualisation va entrer en jeu.

‍

Antoine est le CEO et fondateur de Jedha. Diplômé d’Audencia Business School et de UC Berkeley, Antoine a travaillé pendant plus de 3 ans en tant que Business Analyst à San Francisco et à Paris. Il a ensuite fondé sa première entreprise Evohé qu’il a vendu pour repartir dans la Silicon Valley et fonder le cours de Data Analytics de Product School, le plus grand bootcamp de Product Management des US, qu’il a enseigné pendant 2 ans. De retour en France, il a fondé Jedha Bootcamp.

Qu'est-ce que la Data Visualisation ou Dataviz ?

Qu'est-ce que la Data Visualisation ?

Quelles sont les bonnes pratiques de Data Viz ?

Les phases préliminaires d'un projet Machine Learning

Articles recommandés

Les 6 meilleures formations en Data Visualisation

Les 5 meilleures formations pour apprendre Power BI

Guide Power Bi : l'outil en Data Visualisation de Microsoft

Formation gratuite à Power BI

Power BI pour les nuls : par où commencer ?

Les 5 meilleures formations pour apprendre Tableau