Le data lake est un système pour stocker des données. Apparu en 2010 dans un contexte de big data, ce moyen de stockage est destiné à solutionner les limites des autres systèmes, notamment le phénomène de silotage de données.

>> Téléchargez ce kit gratuit et réalisez une étude de marché approfondie. 

Data lake pour lac de données : le lac est un espace naturel alimenté par diverses sources, l'individu y accède librement pour prélever des échantillons à analyser ; le data lake, de la même manière, est alimenté par des sources diverses, des données brutes y sont collectées pour exploitation. C'est pour optimiser la gestion de leurs données que les entreprises envisagent le data lake au moment de choisir leur système de stockage, et particulièrement lorsqu'il s'agit de tirer parti des opportunités liées à l'« Internet des Objets » et au machine learning.

 

Qu'est-ce qu'un data lake ?

Le data lake est un espace de stockage rapide et volumineux des données hétérogènes de l'entreprise. Le système se distingue par les caractéristiques suivantes :

  • La donnée est stockée dans son format natif, sans prétraitement : le système stocke ainsi des données sous tous formats. Données structurées, données semi-structurées et données non-structurées cohabitent dans l'espace de stockage, qui centralise des données brutes ainsi que des données transformées.
  • Le stockage est à durée indéterminée, et à usage indéterminé : l'entreprise y stocke l'information de manière systématique, peu importe son utilité.
  • Le data lake ne catégorise pas l'information, le système centralise toutes les données en un endroit unique.
  • Ce moyen de stockage permet la collecte massive d'un volume d'informations considérable.
  • Le data lake est une solution peu onéreuse à l'ère du big data.

Comme tout système de stockage, un data lake permet de conserver l'information à des fins d'analyse et d'exploitation ultérieures. Le système de data lake se distingue principalement des autres systèmes par sa capacité et sa performance : l'entreprise collecte rapidement un gros volume d'informations. Un processus très utile pour développer des applications de l'« Internet des Objets », et pour exploiter la technologie du machine learning.

Besoin d'aide pour planifier votre prochaine étude de marché ?

Téléchargez ce kit gratuit pour vous aider à étudier vos concurrents et cerner le profil de vos clients potentiels.

 

Comment fonctionne un data lake ?

Le fonctionnement du data lake est similaire au fonctionnement de tout autre système de stockage, à la différence que l'utilisateur n'a pas besoin de traiter préalablement la donnée pour se conformer à un format imposé. E-mails, fichiers vidéo ou encore CSV : autant d'actifs numériques de l'entreprise se retrouvent immergés ensemble dans le lac de données.

Concrètement :

  1. Un data lake est implémenté en entreprise, sur site ou sur cloud. La plupart des systèmes se basent sur la technologie Hadoop. La préférence des entreprises va majoritairement aux solutions cloud, telles que Microsoft Azure ou Amazon S3 entre autres exemples.
  2. Le système de data lake fonctionne sur la base du schéma sur lecture. La donnée est importée par l'utilisateur dans son format d'origine, aucun traitement n'est effectué sur les flux entrants.
  3. Les données sont accessibles depuis le data lake : l'utilisateur y recherche l'information pour traitement et analyse. En règle générale, les tâches sont confiées à un data scientist. L'exploration d'un data lake en effet requiert une expertise avancée, puisque les formats n'y sont pas normalisés et que le système n'est pas optimisé pour les requêtes SQL.

 

Quels sont les avantages et les inconvénients des data lakes ?

À leur apparition, les data lakes ont remporté un vif succès auprès des entreprises. Les avantages de ce type de solution de stockage sont en effet très attractifs. Attention néanmoins à connaître les limites du système, qui n'est pas nécessairement le mieux adapté à tous les usages.

 

Les avantages des data lakes

  • Flexibilité : parce que les data lakes stockent les données telles quelles, ce système est le plus flexible. Pas de processus de traitement préalable nécessaire, l'information est stockée sous tous formats, peu importe sa source.
  • Agilité : le système est rapide. Dans la mesure où l'utilisateur n'a pas besoin de préparer la donnée avant stockage, l'entreprise gagne en agilité et économise du temps.
  • Prix : le coût de stockage est réduit en comparaison avec les autres systèmes. L'entreprise s'offre ainsi une solution pas chère, d'autant moins chère que le data lake permet de conserver un volume colossal de donnée.
  • Exhaustivité : l'entreprise stocke dans un data lake toutes ses données, pour une durée indéterminée. Cela permet de disposer d'un historique exhaustif sur une longue période, pour exploiter de manière optimale toutes les informations collectées. L'exhaustivité en outre pallie le risque de silos de données.
  • Capacité : la capacité considérable et extensible des data lakes est adaptée dans le contexte d'accroissement du volume de données. L'entreprise dispose d'un espace de stockage modulable, et rationalise ainsi ses coûts.

 

Les inconvénients des data lakes

  • Les data lakes stockent toutes les données, et non les seules données nécessaires. Le risque de désordre est important quand un nombre démesuré d'informations diverses gravitent dans l'espace de stockage, l'entreprise doit veiller à ne pas perdre la maîtrise de l'information. Le terme de « data swamp », pour marécage de données, illustre la dégradation du système, qui se retrouve à l'abandon parce que la donnée est devenue inaccessible, sans aucune valeur.
  • Bien que la capacité de stockage soit considérable, il paraît aberrant de stocker des données inutiles, une tentation forte à l'usage des data lakes. Collecter et stocker trop d'informations en outre est risqué dans le contexte RGPD : la réglementation limite progressivement les traitements de données ; l'entreprise qui se perd dans un volume massif d'informations peut se retrouver en infraction à la loi, sans le vouloir.
  • La recherche, le traitement et l'analyse de données brutes est chronophage. L'entreprise doit faire appel à des experts pour exploiter ses données stockées dans un data lake, des données qui ne sont ni traitées ni hiérarchisées en amont.

 

Quelle est la différence entre data lake et datawarehouse ?

Le big data impose à l'entreprise de se doter d'un système de stockage des données. Plusieurs systèmes au choix, parmi lesquels le data lake et le datawarehouse. Comment arbitrer ?

Le datawarehouse, également appelé entrepôt de données, est aussi un système de stockage des données. À la différence du système des data lakes, le datawarehouse utilise le schéma sur écriture : la donnée est traitée avant d'être stockée. Une donnée qui plus est stockée dans un objectif déterminé. L'information dans l'entreprise est mieux organisée, et donc plus facile à exploiter. Une nuance néanmoins : le prétraitement fait du datawarehouse une base de données spécialisée, destinée à un nombre limité de collaborateurs. Résultat : le risque de sous-exploiter la donnée est avéré. Autres différences entre data lake et datawarehouse : le prix, moins élevé avec une solution de type data lake ; la capacité de stockage, supérieure dans un lac de données.

En tout état de cause, chaque système présente des avantages et des limites. C'est pourquoi souvent, il s'avère nécessaire pour l'entreprise d'implémenter les 2 solutions de manière complémentaire, pour couvrir tous ses besoins et lever les problématiques respectives du data lake et du datawarehouse.

 

Pour aller plus loin, téléchargez ce kit d'étude de marché gratuit pour étudier vos concurrents et cerner le profil de vos clients potentiels.Bottom-CTA : Kit d'étude de marché

Publication originale le 8 novembre 2021, mise à jour le 29 novembre 2021