Au cours des 5 dernières années, nous avons créé plus de données que depuis les débuts de l’humanité. Nous produisons aujourd’hui tellement de données qu’il devient difficile de les gérer. C’est ce qu’on appelle le Big Data. Nous avons eu le plaisir de recevoir pour notre workshop, Victoria Galano, Data Scientist chez Air France qui a pu éclairer notre lanterne sur ce qu’est le Big Data et ses applications dans le monde de l’entreprise.

Vous pouvez retrouver les slides de sa présentation via ce lien : https://bit.ly/2LEeH8j

Qu’est ce que c’est ?

« Big Data refers to Data sets whose size is beyond the ability of typical database software tools to capture, store, manage and analyze. »

Cette définition vient de McKinsey Global Institute. Ce que l’on peut en retenir est que le Big Data est lié aux problématiques de gestion, de stockage et d’analyse de données tellement volumineuses que la plupart des outils que l’on connaît aujourd’hui ne sont pas capables de traiter.

Aujourd’hui, nous avons développé de nouvelles solutions capables de gérer des volumes énormes de données comme Hadoop, Cassandra et Spark. Le Cloud Computing (avec notamment AWS, Google Cloud Platform et Microsoft Azure) apporte aussi sa suite de solution très utile dans le stockage et la gestion des données.

On entend aussi souvent parler de Machine Learning. Ce qui n’est pas à confondre avec le Big Data. Le Machine Learning est un domaine qui permet de faire des analyses prédictives de manière automatique. Si vous souhaitez en savoir plus, n’hésitez pas à regarder notre article d’Introduction au Machine Learning.

A quel point la data est “Big” aujourd’hui ?

« For 2017, 90% of the Data in the world today has been created in the last two years alone, at 2.5 quintillion bytes of data a day!” IBM Marketing

Ce que l’on peut tirer de ceci est que, la création de données dans le monde suit une courbe exponentielle. Or aujourd’hui, de récentes études ont montré que nous analysons seulement 0,5% des données pour prendre des décisions opérationnelles.

Comment caractériser le Big Data ?

On parle très souvent des 3 Vs qui définissent le Big Data :

Volume : Vous l’avez compris, le volume des données à traiter est énorme. Le monde du digital représentait 1.2 Zettabytes (1e+9 Terabytes) de données. En 2020, ce dernier représentera 35 Zettabytes.

Nous avons donc besoin de nouveaux moyens pour stocker et gérer nos bases de données pour ne plus être limité par l’espace de stockage.

Variety : Les données ne viennent plus uniquement d’Excel. Les données proviennent de sources très variées et peuvent prendre diverses formes. On a par exemple les données qui viennent d’objets connectés, de tweets, de posts sur Facebook, des images ou encore des vidéos.

C’est pour cela que nous avons besoin de développer des outils qui nous permettent d’analyser aussi ces nouveaux types de données.

Velocity : Dans l’analyse de données classique, nous prenions un gros paquet de données, on l’analysait puis en extrapolait des résultats. Mais maintenant les données sont envoyées en permanence dans des serveurs et nécessitent une analyse constante.

C’est pour cela que nous devons avoir des solutions qui vont permettre de produire des analyses en continue.

Au fur et à mesure des années, on a ajouté des Vs dans les caractéristiques du Big Data. En voici les plus populaires

Veracity : Est ce que les données sont de qualités ou non ?
Value : Est ce que les données peuvent apporter de la valeur à l’entreprise ?
Variability : Les données peuvent changer de type au cours du temps
Visualisation : Comment présenter les données de manière pertinente ?

D’où viennent les données Big Data ?

Les sources Big Data sont multiples. Elles peuvent venir de CRM, de navigateurs web, de blogs, d’applications musicales… On peut cependant rassembler les sources de données en secteurs principaux :

Le domaine scientifique, et notamment l’astronomie, produit énormément de données. Le plus grand télescope du monde SKA génère par exemple 400 Petabytes (4e+8 Gigabytes) de données par an.

Le web est naturellement une source de création de données incroyable. Facebook et Twitter produiraient aux alentours de 15 Terabytes de données par jour tandis que Google à lui seul produirait 20 TB de données.L’industrie de manière générale génère aussi beaucoup de données. Un seul moteur d’avion génère plus de 10TB de données toutes les 30 minutes.

La finance aussi est une grande créatrice de données puisque rien que le New York Stock Exchange est capable de générer 1TB de données par jour.

Les Applications du Big Data

C’est bien impressionnant ce volume de données mais à quoi cela pourrait-il bien servir ? Et bien, le Big Data pourrait s’avérer extrêmement utile dans plein de secteurs.

Tout d’abord celui de la santé. L’université de Los Angeles utilise l’analyse Big Data pour prévenir des complications conséquentes à un trauma crânien.

Dans la politique, Barack Obama a engagé une équipe Big Data pour avoir une connaissance extrêmement précise de ses électeurs.

Le secteur du sport aussi utilise le Big Data pour analyser les performances de tous les joueurs sur tous les matchs qu’ils ont effectué et reconnaître les talents.

La finance, bien sûr, est aussi un secteur qui utilise le Big Data pour détecter les fraudes ou encore prédire les différents cours des actions

Et enfin, le secteur de la tech tire énormément profit du Big Data notamment dans tout ce qui est intelligence artificielle avec Siri, les voitures autonomes, les chatbots etc.

A quel prix ?

La principale limite du Big Data reste la protection des données. Alors que nous gagnons en capacité d’analyse, il devient difficile de placer le curseur entre réelle utilité et violation de la vie privée des individus.

Les utilisateurs ne sont pas toujours conscients d’ailleurs de l’utilisation que l’on fait de leurs données personnelles. La GDPR serait éventuellement une réponse apportée par l’Europe à cette problématique mais est-ce que cela fera vraiment l’affaire?