Data Science : définition, applications et technologies
La Data Science et ses applications font désormais partie de notre quotidien : Intelligence Artificielle, Big Data, Machine Learning. Mais comment s'y retrouver ?
La Data Science est maintenant un domaine répandu dans les entreprises. Bien que ce domaine soit très tech, il est très différent du software engineering ou du développement web. Il est donc important d’en connaître les rouages pour pouvoir mener des projets en Data Science à leur terme. Dans ce guide, nous vous expliquons les 4 étapes clés à suivre ainsi que des conseils pour gérer vos projets en Data Science.
Avant de se lancer dans un projet Data, il convient surtout de déterminer les besoins de l’entreprise et de les traduire en problématique Data. Ce que l’on veut dire par là est qu’il faut apprendre à pouvoir définir les outils à utiliser, les analyses à mener et les livrables à produire. Une fois que ceci est fait, l’équipe pourra entrer dans le cœur du sujet.
Alors plus facile à dire qu’à faire ? Comment évalue-t-on les besoins et surtout comment est-ce qu’on les traduit en problématique Data ?
Cela vient plutôt du management en amont. Il est important de faire émerger des besoins précis qui peuvent être résolu grâce à la Data. Pour cela, vous pouvez tout d’abord effectuer des ateliers de Design Thinking par exemple qui ont pour objectif de faire ressortir des besoins.
Toutes les techniques de Mind Mapping par exemple sont très utiles pour voir les différentes problématiques qui se posent dans l’entreprise par exemple. Bien sûr, il en existe bien d’autres et si cela vous intéresse n’hésitez pas à aller consulter des blogs d’experts en la matière comme la French Future Academy.
En tous cas, l’objectif est que les équipes métiers, au cœur du réacteur fasse ressortir un problème à résoudre qu’ils vont pouvoir exposer par la suite.
Une fois que le problème à résoudre est défini, il est temps que les équipes métiers et les équipes Data se réunissent et discutent. Les équipes métiers devront expliquer clairement leur besoin aux équipes Data qui vont, elles, s’occuper de le comprendre et de déterminer les technologies à mettre en place. Elles vont aussi déterminer la faisabilité du projet avant toute chose car il arrive très souvent que les projets Data se heurtent à d’autres problématiques annexes. Ces problématiques tournent d’ailleurs très souvent autour de l’infrastructure en place qu’il faut remanier.
Un projet de Data Science passera toujours par 4 étapes :
La collecte de la donnée est une étape cruciale dans un projet de Data Science car sans données pertinentes, vous n’aurez pas de résultats pertinents, même avec les meilleurs algorithmes du monde. Cette phase est donc capitale et il faut y consacrer du temps.
La source de données la plus évidente est la base de données. L’entreprise dispose toujours de bases de données SQL ou même simplement de feuilles excel à exploiter. Pour certaines entreprises plus avancées, elles disposent d’un Data Lake qui est l’endroit où on entrepose de la donnée brute.
On peut aussi collecter de la donnée depuis le web pour agrémenter les bases de données existantes. N’hésitez pas à regarder notre article sur le web scraping si vous voulez avoir une meilleure idée du domaine.
En général, la donnée dont vous aurez besoin se trouve dans plusieurs sources différentes. De ce fait, vous devrez effectuer des processus d’ETL (Extract Transform Load) pour extraire la donnée, la transformer et la charger dans une base de données qu’on appelle souvent un data warehouse et qui va vous permettre d’entamer vos analyses.
Lorsque l’on fait de la collecte de données, on utilise souvent les outils :
Une fois que vous avez collecté la donnée, il est important de passer par une phase d’exploration de la donnée. La raison est simple, ce n’est pas parce que vous avez collecté la donnée que vous savez ce qu’il s’y trouve. Vous devez donc comprendre les différentes tendances, les grandes statistiques pour avoir une idée globale de votre jeu de données.
La donnée s’explore de plusieurs manières mais on distingue tout de même des fondamentaux à ne pas louper. D’abord vous devrez effectuer une étude statistique descriptive basique. Cela vous permet de voir les grandes tendances, les moyennes, la variance du jeu de données etc. Vous aurez une première idée de vos variables etc.
Ensuite, vous devrez produire des graphiques, cela vous permettra d’avoir une compréhension plus granulaire de la donnée. C’est ce qu’on appelle aussi la Data Visualisation.
Pour effectuer votre phase exploratoire, vous allez surtout utiliser Python et différentes librairies dont voici les noms :
La phase d’exploitation est l’étape que les Data Scientist apprécient le plus car c’est celle où l’on va mettre en place l’intelligence artificielle. Il faudra donc créer un algorithme de Machine Learning souvent pour pouvoir donner de la valeur à la donnée. Il faudra donc définir les besoins et choisir le bon algorithme qui répond à la problématique.
La réponse est non. Très souvent dans les projets Data Science, on va utiliser le Machine Learning mais il n’est pas rare de devoir simplement créer un dashboard d’une étude statistique ou bien définir des KPIs à suivre etc.
Simplement, il est important de garder en tête que l’objectif de la phase d’exploitation est de donner de la valeur à la donnée.
Pour la partie exploitation, on restera sur des librairies et framework Python à connaître. Voici donc les principaux :
Bien sûr, vous aurez d’autres outils mais en commençant par ceux-là, vous couvrirez déjà une bonne partie des besoins.
On l’appelle aussi Déploiement, l’objectif de la mise en production est de porter le projet à hauteur de l’organisation. Par exemple, on peut vouloir mettre un algorithme de Machine Learning en production pour qu’il puisse être utilisé par tous les utilisateurs de l’entreprise. Si vous êtes snapchat et que vous avez développé un nouveau filtre incroyable en Deep Learning, vous devrez le mettre en production pour qu’il soit utilisable par tous les utilisateurs de l’application.
Cette fois, cela implique une dimension plus technique en Data qui est d’ailleurs gérée plutôt par des Data Engineers ou Machine Learning Engineers que des Data Scientists.
On va cette fois aller sur des outils de standardisation d’environnements. On utilisera donc Python et des plateformes cloud :
Préparer la donnée est clé dans la réussite d’un projet Data. Si la donnée n’est pas propre ou n’est pas pertinente, vous n’aurez pas de bons résultats. Passez donc du temps dans la phase de collecte à qualifier la donnée.
Les algorithmes de Machine Learning c’est bien mais il ne faut pas les complexifier à outrance au risque de faire capoter la phase de mise en production. En effet, plus un algorithme est complexe, plus il sera difficile de le mettre à échelle. Parfois, il vaut mieux accepter des résultats un peu moins bons mais exploitables.
Ces 4 étapes d’un projet Data Science ne doivent pas être géré de manière linéaire ou en cascade. Essayez plutôt d’itérer plusieurs fois sur chacune des phases du projet. Par exemple, collectez un peu de données au départ pour l’exploiter et la mettre en production puis faites une repasse. De cette manière, les étapes vous paraîtront plus simples et vous verrez plus rapidement comment votre projet avance.
Ne soyez pas déçus si vous finissez par ne pas mettre votre projet en production. Il arrive souvent que les algorithmes de Machine Learning ne soient pas à la hauteur. Ce n’est pas grave, cela veut simplement dire que vous devrez attaquer le problème avec d’autres données. C’est est courant dans les projets de Data Science.
Il est également envisageable d'employer des solutions spécialisées pour l'exécution et le déploiement de projets Data Science, telles que la Plateforme DataOps Saagie, afin de faciliter la réalisation de ces projets.