Projet data

Projet Data Science : le guide complet pour le mener à bien !

Antoine Krajnc
Par 
Antoine Krajnc
CEO & Fondateur
Dernière mise à jour le 
14
 
October
 
2024
Devenez Data Scientist et donnez un tournant décisif à votre carrière !
Découvrir notre formation
Projet Data Science : le guide complet pour le mener à bien !
Sommaire

La Data Science est maintenant un domaine répandu dans les entreprises. Bien que ce domaine soit très tech, il est très différent du software engineering ou du développement web. Il est donc important d’en connaître les rouages pour pouvoir mener des projets en Data Science à leur terme. Dans ce guide, nous vous expliquons les 4 étapes clés à suivre ainsi que des conseils pour gérer vos projets en Data Science.

Devenez Data Scientist et donnez un tournant décisif à votre carrière !
Découvrir notre formation
Formation IAFormation IA

Comment évaluer les besoins et les traduire en problématique Data ?

Avant de se lancer dans un projet Data, il convient surtout de déterminer les besoins de l’entreprise et de les traduire en problématique Data. Ce que l’on veut dire par là est qu’il faut apprendre à pouvoir définir les outils à utiliser, les analyses à mener et les livrables à produire. Une fois que ceci est fait, l’équipe pourra entrer dans le cœur du sujet. 

Alors plus facile à dire qu’à faire ? Comment évalue-t-on les besoins et surtout comment est-ce qu’on les traduit en problématique Data ? 

Comment définir le besoin ?

Cela vient plutôt du management en amont. Il est important de faire émerger des besoins précis qui peuvent être résolu grâce à la Data. Pour cela, vous pouvez tout d’abord effectuer des ateliers de Design Thinking par exemple qui ont pour objectif de faire ressortir des besoins.

Toutes les techniques de Mind Mapping par exemple sont très utiles pour voir les différentes problématiques qui se posent dans l’entreprise par exemple. Bien sûr, il en existe bien d’autres et si cela vous intéresse n’hésitez pas à aller consulter des blogs d’experts en la matière comme la French Future Academy. 

En tous cas, l’objectif est que les équipes métiers, au cœur du réacteur fasse ressortir un problème à résoudre qu’ils vont pouvoir exposer par la suite.

Comment traduire le besoin ?

Une fois que le problème à résoudre est défini, il est temps que les équipes métiers et les équipes Data se réunissent et discutent. Les équipes métiers devront expliquer clairement leur besoin aux équipes Data qui vont, elles, s’occuper de le comprendre et de déterminer les technologies à mettre en place. Elles vont aussi déterminer la faisabilité du projet avant toute chose car il arrive très souvent que les projets Data se heurtent à d’autres problématiques annexes. Ces problématiques tournent d’ailleurs très souvent autour de l’infrastructure en place qu’il faut remanier. 

Quelles sont les étapes d'un un projet en Data Science ?

Un projet de Data Science passera toujours par 4 étapes : 

  • La collecte de la donnée : On va essayer d’extraire et réunir de la donnée pertinente au projet
  • L’exploration de la donnée : On va essayer de comprendre la donnée qu’on a à disposition
  • L’exploitation de la donnée : On va donner de la valeur à la donnée à disposition 
  • La mise en production : On va passer le projet à échelle 

Étape 1 : Collecte de la donnée

Qu'est-ce que la collecte de données ?

La collecte de la donnée est une étape cruciale dans un projet de Data Science car sans données pertinentes, vous n’aurez pas de résultats pertinents, même avec les meilleurs algorithmes du monde. Cette phase est donc capitale et il faut y consacrer du temps. 

Où collecter la donnée ?

La source de données la plus évidente est la base de données. L’entreprise dispose toujours de bases de données SQL ou même simplement de feuilles excel à exploiter. Pour certaines entreprises plus avancées, elles disposent d’un Data Lake qui est l’endroit où on entrepose de la donnée brute. 

On peut aussi collecter de la donnée depuis le web pour agrémenter les bases de données existantes. N’hésitez pas à regarder notre article sur le web scraping si vous voulez avoir une meilleure idée du domaine. 

En général, la donnée dont vous aurez besoin se trouve dans plusieurs sources différentes. De ce fait, vous devrez effectuer des processus d’ETL (Extract Transform Load) pour extraire la donnée, la transformer et la charger dans une base de données qu’on appelle souvent un data warehouse et qui va vous permettre d’entamer vos analyses. 

Quels outils utiliser pour collecter de la donnée ?

Lorsque l’on fait de la collecte de données, on utilise souvent les outils : 

  • SQL pour les bases de données 
  • Python pour écrire des scripts permettant d’extraire la données 
  • Scrapy qui est une librairie en python permettant de faire du web scraping 
  • AWS et plus généralement les plateformes cloud qui vous permettent de gérer votre infrastructure.

Étape 2 : Exploration de la donnée

Qu'est-ce que l'exploration de la donnée ?

Une fois que vous avez collecté la donnée, il est important de passer par une phase d’exploration de la donnée. La raison est simple, ce n’est pas parce que vous avez collecté la donnée que vous savez ce qu’il s’y trouve. Vous devez donc comprendre les différentes tendances, les grandes statistiques pour avoir une idée globale de votre jeu de données. 

Comment explorer la donnée ?

La donnée s’explore de plusieurs manières mais on distingue tout de même des fondamentaux à ne pas louper. D’abord vous devrez effectuer une étude statistique descriptive basique. Cela vous permet de voir les grandes tendances, les moyennes, la variance du jeu de données etc. Vous aurez une première idée de vos variables etc. 

Ensuite, vous devrez produire des graphiques, cela vous permettra d’avoir une compréhension plus granulaire de la donnée. C’est ce qu’on appelle aussi la Data Visualisation. 

Quels outils utiliser pour l'exploration de la donnée ?

Pour effectuer votre phase exploratoire, vous allez surtout utiliser Python et différentes librairies dont voici les noms : 

  • Numpy & Pandas pour la Data Manipulation
  • Matplotlib, Plotly et Bokeh pour ce qui est de la Data Visualisation 
  • Possiblement PySpark si vous devez gérer des données Big Data 

Étape 3 : Exploitation de la donnée 

Qu'est-ce que l'exploitation de la donnée ?

Exploitation de la donnée

La phase d’exploitation est l’étape que les Data Scientist apprécient le plus car c’est celle où l’on va mettre en place l’intelligence artificielle. Il faudra donc créer un algorithme de Machine Learning souvent pour pouvoir donner de la valeur à la donnée. Il faudra donc définir les besoins et choisir le bon algorithme qui répond à la problématique. 

Est-ce que l’exploitation implique toujours du Machine Learning ?

La réponse est non. Très souvent dans les projets Data Science, on va utiliser le Machine Learning mais il n’est pas rare de devoir simplement créer un dashboard d’une étude statistique ou bien définir des KPIs à suivre etc. 

Simplement, il est important de garder en tête que l’objectif de la phase d’exploitation est de donner de la valeur à la donnée. 

Quels outils utiliser pour exploiter de la donnée ?

Pour la partie exploitation, on restera sur des librairies et framework Python à connaître. Voici donc les principaux : 

  • Sklearn pour le Machine Learning 
  • TensorFlow, Spacy pour le Deep Learning et le NLP

Bien sûr, vous aurez d’autres outils mais en commençant par ceux-là, vous couvrirez déjà une bonne partie des besoins. 

Étape 3 : Mise en production

Qu'est-ce que la mise en production ?

 

On l’appelle aussi Déploiement, l’objectif de la mise en production est de porter le projet à hauteur de l’organisation. Par exemple, on peut vouloir mettre un algorithme de Machine Learning en production pour qu’il puisse être utilisé par tous les utilisateurs de l’entreprise. Si vous êtes snapchat et que vous avez développé un nouveau filtre incroyable en Deep Learning, vous devrez le mettre en production pour qu’il soit utilisable par tous les utilisateurs de l’application. 

Cette fois, cela implique une dimension plus technique en Data qui est d’ailleurs gérée plutôt par des Data Engineers ou Machine Learning Engineers que des Data Scientists. 

Quels outils utiliser pour le déploiement ?

On va cette fois aller sur des outils de standardisation d’environnements. On utilisera donc Python et des plateformes cloud :

  • MLflow pour standardisation la conception d’un algorithme de Machine Learning
  • AWS SageMaker pour gérer la mise en production des algorithmes 
  • Docker & Kubernetes pour la standardisation des environnements de production 
  • Flask pour créer des applications web simple utilisant le Machine Learning 

4 conseils pour mener un projet Data à bien

Ne négligez pas le preprocessing et la collecte 

Préparer la donnée est clé dans la réussite d’un projet Data. Si la donnée n’est pas propre ou n’est pas pertinente, vous n’aurez pas de bons résultats. Passez donc du temps dans la phase de collecte à qualifier la donnée. 

Faites simple 

Les algorithmes de Machine Learning c’est bien mais il ne faut pas les complexifier à outrance au risque de faire capoter la phase de mise en production. En effet, plus un algorithme est complexe, plus il sera difficile de le mettre à échelle. Parfois, il vaut mieux accepter des résultats un peu moins bons mais exploitables. 

Itérez 

Ces 4 étapes d’un projet Data Science ne doivent pas être géré de manière linéaire ou en cascade. Essayez plutôt d’itérer plusieurs fois sur chacune des phases du projet. Par exemple, collectez un peu de données au départ pour l’exploiter et la mettre en production puis faites une repasse. De cette manière, les étapes vous paraîtront plus simples et vous verrez plus rapidement comment votre projet avance. 

Des résultats négatifs sont tout de même des résultats ! 

Ne soyez pas déçus si vous finissez par ne pas mettre votre projet en production. Il arrive souvent que les algorithmes de Machine Learning ne soient pas à la hauteur. Ce n’est pas grave, cela veut simplement dire que vous devrez attaquer le problème avec d’autres données. C’est est courant dans les projets de Data Science. 

Il est également envisageable d'employer des solutions spécialisées pour l'exécution et le déploiement de projets Data Science, telles que la Plateforme DataOps Saagie, afin de faciliter la réalisation de ces projets.


Soirée Portes Ouvertes Jedha BootcampSoirée Portes Ouvertes Jedha Bootcamp
CEO & Fondateur
Antoine Krajnc
CEO & Fondateur
Antoine est le CEO et fondateur de Jedha. Diplômé d’Audencia Business School et de UC Berkeley, Antoine a travaillé pendant plus de 3 ans en tant que Business Analyst à San Francisco et à Paris. Il a ensuite fondé sa première entreprise Evohé qu’il a vendu pour repartir dans la Silicon Valley et fonder le cours de Data Analytics de Product School, le plus grand bootcamp de Product Management des US, qu’il a enseigné pendant 2 ans. De retour en France, il a fondé Jedha Bootcamp.

Articles recommandés