Le stockage de données, méthodes et outils | Jedha
Découvrez comment stocker de grandes quantités de données, les méthodes, les outils, les types de bases de données, le Data Lake ou encore le Data Management.
Le Data Lake et le Data Warehouse sont deux notions de l'environnement technologique et de l'architecture de données des entreprises. Souvent confondus, ces deux types de stockage de données ont en réalité plus de différences que de points communs.
Que signifie chacun d'entre eux et qu'est-ce qui les différencie ?
Le Data Lake est un concept lié au Big data. Il désigne un espace de stockage de données présent dans l'environnement informatique d'une entreprise. Cet espace de stockage global retient les données de manière à ce qu'elles puissent être exploitées de différentes façons : analyse statistique, recherche de données…
Un Data Lake reçoit tous les types de données, structurées ou non, sans que l'entreprise ait besoin de respecter un schéma spécifique pour les flux entrants.
C'est une architecture qui présente de nombreux avantages. Il offre aux organisations une excellente flexibilité dans la collecte et le stockage des données provenant de diverses sources. Le principe du « Schema On Read » permet aux Data Scientists d'économiser énormément de temps. Ce n'est que lorsque les données sont lues en vue d'un traitement qu'elles sont adaptées dans une structure spécifique si nécessaire. Le potentiel des données d'origine reste donc intact jusqu'à leur exploitation par l'entreprise. Cela implique toutefois le recours à des outils très performants pour le traitement des données brutes. Les cas d'usages d'un Data Lake sont aussi très nombreux.
Un Data Warehouse est un espace de stockage de données qui sert à faciliter les prises de décisions en entreprise. Cet environnement de stockage peut être hébergé dans un data center ou dans le cloud. Il permet à l'organisation de collecter des données (Big data) à intervalles réguliers à partir de ses différentes applications métiers.
Avant leur conservation dans le Data Warehouse, les données subissent un traitement préalable et une structuration afin d'être unifiées.
L'entreprise a ainsi accès à des données structurées et cohérentes qu'elle peut utiliser pour prendre des décisions rapides et suivre les tendances en temps réels. Le Data Warehouse ne doit pas être confondu avec le Data Mart. Ce dernier n'est qu'un sous-ensemble de données spécialisé sur un unique thème ou métier. Il n'est pas non plus une base de données traditionnelle.
Tout comme pour le Data Lake, l'utilisation d'un Data Warehouse présente de nombreux avantages pour les gestionnaires des données d'une entreprise, en fonction de leurs objectifs. En plus des avantages évidents liés à la cohérence et à la qualité des données, cette architecture permet de réaliser facilement une analyse historique des données. Les modifications peuvent notamment être enregistrées. De l'intelligence artificielle, à la gestion de la clientèle, les domaines d'usage des Data Warehouses sont nombreux.
Les Data Lakes et les Data Warehouses ont des objectifs qui se rejoignent. En effet, dans les deux cas, il s'agit d'espaces de stockage qui permettent à l'entreprise de conserver durablement et en toute sécurité ses différentes données. De plus, ce sont des environnements permettant de centraliser le Big Data afin d'en faciliter l'utilisation dans différents contextes. Ces deux espaces s'opposent toutefois sur une multitude de points qu'il convient de souligner.
La différence fondamentale entre un data lake et un data warehouse se situe au niveau de la nature des données qu'ils servent à stocker.
Le premier sert au stockage de données brut tandis que le second ne conserve que des données structurées.
Par données brutes, on entend les données qui ont été collectées via les différentes applications de l'entreprise, mais qui n'ont pas encore été nettoyées et transformées dans un but précis. Ce sont des données facilement malléables qui occupent naturellement beaucoup de place. Elles nécessitent de ce fait un espace de stockage bien plus grand. Il y a cependant un risque important de se retrouver avec un marécage de données (Data Swamp) lorsque l'entreprise ne réussit pas à mettre en place des pratiques optimales de gestion et de traitement de ces données.
Les données structurées d'un Data Warehouse quant à eux sont des données qui ont déjà été nettoyées et transformées dans un format directement exploitable pour des besoins spécifiques. Cette architecture ne conserve pas des données inutiles ou non exploitables. L'espace de stockage nécessaire est donc réduit, ce qui permet à l'organisation de maîtriser ses coûts.
Compte tenu de leur nature différente, les Data Warehouses et les Data Lakes ont également des cas usages quelque peu différents.
Les data lake sont le plus souvent utilisés dans les secteurs suivants :
Dans le domaine de la santé, les Data Lakes servent depuis plusieurs années à résoudre diverses problématiques. En raison de la grande quantité de données non structurées qui sont générées par les entités de ce secteur (données cliniques, notes des médecins…), les besoins s'orientent plus vers des outils capables de traiter des informations de diverses natures et d'en extraire des analyses utiles dans différents contextes. Dans le secteur de l'éducation, les données qui doivent être collectées pour les prédictions et d'autres analyses sont bien souvent non structurées : notes des élèves, assiduités au cours, données personnelles… Les Data Lakes sont les mieux adaptés à ce type de traitement. Il en est de même dans le secteur des transports où les Data Lakes permettent aux constructeurs et aux grandes compagnies de faire plus facilement des prédictions afin de réduire les coûts, et d'anticiper les pannes.
En ce qui concerne l'intelligence artificielle, la quantité colossale de données auxquels donnent accès les Data Lakes est enfin un atout pour le fonctionnement des algorithmes de Deep Learning. Diverses problématiques d'apprentissage de la machine peuvent être résolues grâce à ces formats de données, selon les secteurs. On peut évoquer par exemple la lutte contre la fraude dans le secteur des assurances.
Cet espace est d'une grande utilité dans les secteurs tels que :
Ces secteurs sont réputés pour les quantités importantes de données structurées qu'elles génèrent. Le Data Warehouse est donc l'espace qui s'y adapte le plus, car il permet de mettre de l'ordre dans les données, de les rendre exploitables pour le plus grand nombre et de faciliter le suivi des tendances. De nombreux outils de Machine Learning exploitent également ces types de données pour aider les entreprises dans leurs prises de décisions.
Les technologies de gestion de ces deux espaces de stockage ne sont pas les mêmes. Pour construire un Data Lake et le traiter, les gestionnaires de données se tournent principalement vers la solution sur mesure Hadoop. Avec ses offres que sont Kafka, Spark-Streaming et Storm, elle permet aux Data Scientists de traiter à la volée les données avant leur introduction dans le Data Lake. Le NoSQL et les solutions cloud tels que Google Cloud Platform ou Amazon Web Services font également partie de la liste des technologies permettant de gérer les Data Lakes avec aisance.
La gestion d'un Data Warehouse quant à lui peut se faire grâce à de nombreuses solutions clés en main ou open source disponibles sur le marché : Ab Initio Software, Amazon Redshift, AnalytiX DS, CodeFutures. Ces technologies sont essentiellement basées sur le Cloud et sur le langage SQL.
Compte tenu de leur complexité, l'exploitation des Data Lakes n'est pas à la portée de tout le monde. Seul un Data Scientist est en mesure de traiter les informations contenues dans un Data Lake et d'en faire un usage précis souhaité par l'entreprise.
À l'opposé, les Data Warehouses sont à la portée de tous les spécialistes qui travaillent en interne dans l'organisation. Les données sont souvent synthétisées sous forme de graphes, de fiche de calculs, de tableau, permettant ainsi à n'importe qui de les lire et de les comprendre. Il suffit d'avoir une bonne maîtrise du secteur ou du métier concerné pour s'y retrouver.
Un Data Lake est très facile à manipuler. L'absence de structure au niveau des données rend possibles différentes modifications selon les besoins qui se présentent. Il y a très peu de restrictions qui s'imposent au Data Scientist.
Ce n'est pas toujours le cas pour un Data Warehouse. Puisque les données sont préalablement catégorisées et structurées, toutes les manipulations ne sont pas permises. De plus, les modifications de structures sont souvent très complexes et nécessitent d'importantes ressources financières. La contrepartie de cette rigidité d'utilisation est que le traitement des données et leur compréhension sont beaucoup plus simples.
Les informations stockées dans un Data Lake ne sont pas toujours destinées à un usage spécifique. Bien entendu, ces données peuvent être collectées afin de répondre à un besoin spécifique dans le futur. Il est également possible de constituer cet espace juste pour avoir sous la main des données exploitables à n'importe quel moment. Ce n'est pas le cas dans une architecture de type Warehouse. Les données brutes collectées sont prétraitées pour servir à un but spécifique. Toutes les informations retenues à l'issue de ce processus sont donc destinées à être utilisées.
Le tableau suivant présente de façon synthétique les principales différences entre Data Lake et Data Warehouse.
Pour maîtriser la gestion des Data Warehouses et Data Lakes ainsi que leurs architectures respectives, il est possible de suivre une formation certifiante de courte durée. S'inscrire à une formation data architecture est un excellent point de départ. Cette offre de formation contient de nombreux modules ayant directement trait à la gestion de problématiques Big data. Des modules portant sur l'IA sont également inclus au programme pour fournir aux apprenants toutes les compétences nécessaires pour comprendre et gérer au mieux une architecture de données.
La formation peut se faire à distance, en présentiel, à temps complet ou partiel. Il est donc nécessaire de passer par une formation data architecture afin de mieux comprendre les notions de Data Lake et Data Warehouse, ainsi que les différences entre ces deux espaces.