Un datawarehouse, ou entrepôt de données est une base de données servant à stocker, combiner et archiver à long terme des données provenant de différentes sources. Les données y sont organisées de manière à préserver leur stabilité contextuelle et à faciliter les requêtes et prises de décision data-driven.

Téléchargez ce kit gratuit et réalisez une étude de marché approfondie. 

À l'heure du big data, les entreprises font face au défi majeur de la sauvegarde et de l'exploitation de leurs données. Le datawarehouse est donc un outil de l'informatique décisionnelle, ou business intelligence. Le marché de datawarehouse se veut d'ailleurs en forte croissance : estimé à 21 milliards $ en 2020, il atteindra 34 milliards $ en 2025 selon les prévisions de Datamation.

Pourquoi créer un datawarehouse ?

Disposer d'un datawarehouse présente de nombreux avantages pour une entreprise et s'impose comme une solution incontournable dès lors que la quantité de données à gérer est significative et leur exploitation un enjeu stratégique.

Comment réaliser une étude de marché ?

Téléchargez ce kit d'étude de marché gratuit et découvrez comment réaliser votre propre étude de marché.

Pour consolider ses données au sein d'un référentiel unique

À partir d'une certaine volumétrie de données gérées, il devient indispensable d'avoir recours à un datawarehouse pour centraliser et consolider les données dans un même endroit. Selon la nature des données, la capacité de stockage va de centaines de gigaoctets à des téraoctets.

Par ailleurs, les données sont organisées de façon transverse afin que l'entreprise puisse disposer des informations utiles sur un sujet souvent transversal aux structures fonctionnelles. Ainsi, à la différence du datamart spécialisé dans un domaine ou un métier, le datawarehouse permet de croiser fonctionnellement les données.

Pour obtenir rapidement des informations stratégiques

Le datawarehouse fait partie des dispositifs de la business intelligence, ou BI, soit l'analyse assistée par ordinateur des données brutes de l'entreprise sur laquelle elle s'appuie pour prendre des décisions stratégiques.

En effet, la centralisation d'une quantité élevée d'informations offre un aperçu complet d'ensembles de données hétérogènes et permet ainsi de prendre en compte tous les paramètres pertinents pour prendre une décision.

De plus, la disponibilité des données et leur caractère non volatile assure une certaine efficacité : les entreprises peuvent construire rapidement des analyses fiables. Les datawarehouses répondent donc au besoin décisif de maîtriser l'information et de l'exploiter au mieux.

Pour assurer une cohérence et une traçabilité des données

L'une des fonctions d'un datawarehouse est d'historiser les données, c'est-à-dire de les conserver en veillant à leur non-volatilité. En préservant la traçabilité des informations et des décisions prises, vous vous assurez qu'une requête, quel que soit le moment où elle est faite, aboutira toujours au même résultat. Le principe de conservation des données est ainsi une condition sine qua non à la fiabilité des résultats délivrés par le datawarehouse.

Par ailleurs, lors de leur intégration, les données sont normalisées et rationalisées de façon à créer une cohérence entre elles, bien qu'elles proviennent de sources disparates. Cette démarche contribue également à maintenir un niveau de qualité élevé des analyses basées sur les données du datawarehouse.

Comment créer un datawarehouse ?

Une fois le besoin de recourir à un datawarehouse identifié et confirmé, le plus dur reste à faire : créer l'entrepôt de données. Voici les principales étapes pour y parvenir.

Sélectionner son partenaire

Construire un datawarehouse est loin d'être simple et nécessite certaines expertises techniques. De ce fait, il peut être judicieux, surtout s'il s'agit d'une première tentative, de vous appuyer sur un partenaire. Des acteurs majeurs du web comme Amazon, avec Amazon Redshift, Oracle avec Oracle Autonomous Datawarehouse ou encore IBM avec IBM Db2 Warehouse, ont développé des solutions d'entrepôts de données robustes et à forte capacité de stockage, avec une assistance technique du client.

Identifier le besoin auprès des utilisateurs

Ensuite, il s'agit de déterminer le besoin des utilisateurs, du métier pour configurer l’outil, puisqu'ils sont les destinataires des informations délivrées par le datawarehouse.

Il est donc important de les consulter notamment lors de la phase de collecte des données, qui regroupe les opérations de :

  • Nettoyage.
  • Formation.
  • Consolidation.

L'implication des utilisateurs est essentielle, puisque ce sont eux qui transforment les données en informations.

Modéliser les données

Différents types de modélisations sont possibles :

  • En étoile.
  • En flocons.
  • En constellation.

Le modèle de conception en étoile est le plus couramment utilisé aujourd'hui. Il privilégie l'approche utilisateur, l'orientation métier étant conçue en tenant compte des axes d'analyse et des types de recherches des utilisateurs.

La modélisation en flocons se rapproche de celle en étoile, à la différence qu'elle est plus facile à maintenir, réduit la redondance et consomme moins d'espace de stockage. Enfin, la modélisation en constellation est en fait un ensemble de schémas en étoile et/ou en flocons.

Choisir l'architecture technique

Plus une requête décisionnelle est complexe, plus elle va solliciter l'architecture de traitement. Il s'agit donc de choisir l'architecture technique la plus appropriée possible en fonction de vos besoins actuels et des évolutions futures. À l'instar de nombreuses autres infrastructures informatiques, le datawarehouse a pris le virage du cloud.

Ainsi, les entreprises ont désormais le choix entre une architecture traditionnelle autorisant l'hébergement des données au sein de l'entreprise et une architecture cloud et des données stockées sur Internet. Le datawarehouse en cloud a l'avantage d'être plus flexible, avec notamment un investissement initial et un processus de déploiement plus rapide qu'avec une architecture traditionnelle.

Implanter et déployer

Cette dernière étape consiste à élaborer les schémas d'accès aux données selon la modélisation préalablement choisie et à définir les règles de nettoyage et de consolidation. Lors du nettoyage, les données erronées sont identifiées et supprimées, ou modifiées afin de maintenir l'intégrité des données.

Pour aller plus loi, téléchargez ce kit étude de marché et réalisez votre propre étude pour votre entreprise pour étudier vos concurrents et mieux cerner le profil de vos clients potentiels.Bottom-CTA : Kit d'étude de marché

 Slide-in-CTA : Kit d'étude de marché

Publication originale le 21 août 2020, mise à jour le 21 août 2020