Le data lake est un système pour stocker des données. Apparu en 2010 dans un contexte de big data, ce moyen de stockage est destiné à solutionner les limites des autres systèmes, notamment le phénomène de silotage de données.

Data lake pour lac de données : le lac est un espace naturel alimenté par diverses sources, l'individu y accède librement pour prélever des échantillons à analyser ; le data lake, de la même manière, est alimenté par des sources diverses, des données brutes y sont collectées pour exploitation. C'est pour optimiser la gestion de leurs données que les entreprises envisagent le data lake au moment de choisir leur système de stockage, et particulièrement lorsqu'il s'agit de tirer parti des opportunités liées à « l'Internet des Objets » et au machine learning.

>> Téléchargement : Comment allier croissance de l'entreprise et respect de la vie privée ?

Quelles sont les caractéristiques du Data Lake ?

 

Des sources variées

Les données stockées par le data lake sont des données relationnelles et non-relationnelles. Celles-ci proviennent de sites web, de réseaux sociaux, d'applications mobiles, d'appareils IoT et d'applications d'entreprise.

 

Des données brutes

Le data lake stocke les données dans leur format natif, sans pré-traitement. De cette façon, données structurées, semi-structurées et non-structurées cohabitent dans un même espace de stockage.

 

Plusieurs formats

Le format des données stockées dans le data lake peut être paramétré pour faciliter leur traitement. Les fichiers CSV peuvent ainsi être remplacés par des fichiers JavaScript Object Notation pour optimiser le stockage et le traitement des données de navigation, le contenu de réseaux sociaux ou les informations liées aux IoT.

 

Un espace de stockage réparti en zones

Si le data lake se caractérise par le regroupement d'un ensemble de données dans un même espace, son architecture peut être structurée en zones pour simplifier l'organisation du stockage. Qu'elles soient physiques ou conceptuelles, les zones créées peuvent suivre cette structure :

  • Une zone de données brutes, copies exactes de leur source.
  • Une master data zone, dans laquelle se regroupent les données internes à l'entreprise.
  • Une zone de dépôt enrichie manuellement par ses utilisateurs.
  • Un bac à sable analytique qui regroupe les données à traiter par les scientifiques.
  • Une zone de données organisées, où sont stockées les données préalablement transformées avant traitement.
  • Une zone d'archives.

Une grande rapidité de recueil des données

Le système de data lake se distingue des autres systèmes par sa performance de stockage. En effet, l'entreprise collecte rapidement un gros volume d'informations et peut ainsi développer plus facilement des technologies liées à l'IoT ou au machine learning.

 

Un prix abordable

Avec une architecture permettant des résultats de recherche de plus en plus rapides, le data lake est une solution peu onéreuse et performante à l'ère du big data.

 

Comment fonctionne un data lake ?

Le fonctionnement du data lake est similaire au fonctionnement de tout autre système de stockage, à la différence que l'utilisateur n'a pas besoin de traiter préalablement la donnée pour se conformer à un format imposé. E-mails, fichiers vidéo ou encore CSV : autant d'actifs numériques de l'entreprise se retrouvent immergés ensemble dans le lac de données.

Concrètement :

  1. Le système de data lake suit un schéma d'architecture appelé « schéma sur lecture ». La donnée est importée par l'utilisateur dans son format d'origine, aucun traitement n'est effectué sur les flux entrants.
  2. Un data lake est implémenté en entreprise, sur site ou sur cloud. De nombreuses combinaisons peuvent être utilisées lors de la conception d'une architecture de data lake. La plupart des systèmes se basent sur la technologie Hadoop. La préférence des entreprises va majoritairement aux solutions cloud, telles que Microsoft Azure ou Amazon S3 entre autres exemples.
  3. Les données sont accessibles depuis le data lake : l'utilisateur y recherche l'information pour traitement et analyse. En règle générale, les tâches sont confiées à un data scientist. L'exploration d'un data lake en effet requiert une expertise avancée, puisque les formats n'y sont pas normalisés et que le système n'est pas optimisé pour les requêtes SQL.

Quels sont les avantages et les inconvénients des data lakes ?

À leur apparition, les data lakes ont remporté un vif succès auprès des entreprises. Les avantages de ce type de solution de stockage sont en effet très attractifs. Attention néanmoins à connaître les limites du système, qui n'est pas nécessairement le mieux adapté à tous les usages.

 

Les avantages des data lakes

Flexibilité

Parce que les data lakes stockent les données telles quelles, ce système est le plus flexible. Pas de processus de traitement préalable nécessaire, l'information est stockée sous tous formats, peu importe sa source.

Agilité

Le système est rapide. Dans la mesure où l'utilisateur n'a pas besoin de préparer la donnée avant stockage, l'entreprise gagne en agilité et économise du temps.

Prix

Le coût de stockage est réduit en comparaison avec les autres systèmes. L'entreprise s'offre ainsi une solution pas chère, d'autant moins chère que le data lake permet de conserver un volume colossal de donnée.

Exhaustivité

L'entreprise stocke dans un data lake toutes ses données, pour une durée indéterminée. Cela permet de disposer d'un historique exhaustif sur une longue période, pour exploiter de manière optimale toutes les informations collectées. L'exhaustivité en outre pallie le risque de silos de données.

Capacité

La capacité considérable et extensible des data lakes est adaptée dans le contexte d'accroissement du volume de données. L'entreprise dispose d'un espace de stockage modulable, et rationalise ainsi ses coûts.

 

Les inconvénients des data lakes

L'effet « marécage de données »

Les data lakes stockent toutes les données, et non les seules données nécessaires. Le risque de désordre est important quand un nombre démesuré d'informations diverses gravitent dans l'espace de stockage, l'entreprise doit veiller à ne pas perdre la maîtrise de l'information. Le terme de « data swamp » pour marécage de données, illustre la dégradation du système, qui se retrouve à l'abandon parce que la donnée est devenue inaccessible, sans aucune valeur.

Des pratiques encadrées

Bien que la capacité de stockage soit considérable, il paraît aberrant de stocker des données inutiles, une tentation forte à l'usage des data lakes. Collecter et stocker trop d'informations en outre est risqué dans le contexte RGPD : la réglementation limite progressivement les traitements de données ; l'entreprise qui se perd dans un volume massif d'informations peut se retrouver en infraction à la loi, sans le vouloir.

Un traitement chronophage

La recherche, le traitement et l'analyse de données brutes sont chronophages. L'entreprise doit faire appel à des experts pour exploiter ses données stockées dans un data lake, des données qui ne sont ni traitées ni hiérarchisées en amont.

Le risque de latence

L'utilisation d'un data lake peut engendrer un problème de latence. Cette latence varie en fonction de l'éloignement du serveur de stockage des données, mais dépend également des performances de connexion qui ralentissent la consultation du data lake.

 

Quelle est la différence entre data lake et datawarehouse ?

Le big data impose à l'entreprise de se doter d'un système de stockage des données. Plusieurs systèmes au choix, parmi lesquels le data lake et le datawarehouse. Comment arbitrer ?

Le datawarehouse, également appelé entrepôt de données, est aussi un système de stockage des données. À la différence du système des data lakes, le datawarehouse utilise le schéma sur écriture : la donnée est traitée avant d'être stockée. Une donnée qui plus est stockée dans un objectif déterminé. L'information dans l'entreprise est mieux organisée, et donc plus facile à exploiter. Une nuance néanmoins : le prétraitement fait du datawarehouse une base de données spécialisée, destinée à un nombre limité de collaborateurs. Résultat : le risque de sous-exploiter la donnée est avéré. Autres différences entre data lake et datawarehouse : le prix, moins élevé avec une solution de type data lake ; la capacité de stockage, supérieure dans un lac de données.

En tout état de cause, chaque système présente des avantages et des limites. C'est pourquoi souvent, il s'avère nécessaire pour l'entreprise d'implémenter les 2 solutions de manière complémentaire, pour couvrir tous ses besoins et lever les problématiques respectives du data lake et du datawarehouse.

 

Comment allier croissance de l'entreprise et respect des données client ?

Téléchargez ce guide gratuit et découvrez comment adopter une stratégie de data management « privacy-first ».

 

Quels sont les domaines d'application des data lakes ?

 

La relation client

Le data lake est très couramment appliqué dans le domaine de la relation client et du marketing. Dans une démarche de DMP (Data Management Platform), il permet de récolter l'ensemble des données issues des échanges avec les clients pour ensuite les analyser, les enrichir et obtenir une connaissance parfaite de chacun d'eux. En supplément, grâce aux données collectées, des modèles de prédiction et des algorithmes peuvent être générés pour anticiper les comportements des consommateurs d'une marque.

 

Le domaine industriel

La méthode de stockage du data lake s'applique également aux secteurs industriels dont l'activité dépend des évolutions du marché et de leur capacité à traiter le flux d'informations en circulation. Pour optimiser leur fabrication et fiabiliser leurs produits, ces derniers stockent, croisent et standardisent une volumétrie importante de données, lesquelles sont plus facilement recueillies et stockées par le système data lake.

 

Le machine learning

Sous-discipline de l'intelligence artificielle, le machine learning est le traitement autonome de données par un algorithme en vue d'effectuer une tâche ou une prédiction. Il est associé à l'IoT, ou Internet des Objets, catégorisant la connexion entre Internet, les objets, lieux et environnements physiques. Le data lake participe directement au développement de cette technologie puisqu'il recueille et stocke la matière nécessaire à l'algorithme pour parfaire son apprentissage.

 

Pour aller plus loin, découvrez le logiciel gratuit de tableau de bord et de suivi des KPI de HubSpot et optimisez les performances à tous les niveaux de votre entreprise en assurant le suivi des données clés.

Logiciel de tableau de bord et KPI



Publication originale le 6 février 2023, mise à jour le 01 septembre 2023

Sujet(s):

Data management