Qu'est-ce que le processus ETL ?

Télécharger le guide du marketing privacy-first
Alexandra Garnier
Alexandra Garnier

Mis à jour :

Publié :

Le terme Extract-Transform-Load, plus connu sous le sigle ETL, désigne un processus informatique mis au point dès les années 1970 lorsque les grandes entreprises ont commencé à agréger et stocker un volume conséquent de données disparates provenant de multiples sources. L'ETL a depuis poursuivi son essor, parallèlement à celui des datawarehouses, jusqu'à devenir aujourd'hui un procédé incontournable du fait du nombre croissant de données traitées dans le monde.

Connectique d'un serveur

Téléchargement  >> Le guide pour allier croissance de l'entreprise et respect de la vie privée

Ainsi, selon l'édition 2019 du Statista Digital Economy Compass, la quantité totale de données générée par les entreprises s'est élevée à 33 zettaoctets en 2018 et devrait atteindre les 175 zettaoctets d'ici 2025 et 2142 zettaoctects d'ici 2035. Pour rappel, un zettaoctet équivaut à un milliard de terraoctets, soit le stockage d'un disque dur externe classique multiplié par 1 milliard.

L'acronyme ETL vous paraît encore obscur ? Voici un guide complet sur le rôle et le fonctionnement d'un ETL au sein de votre écosystème de gestion des données.

Il s'agit donc du chaînon fondamental de la gestion des données, opérant à la fois avec les sources de données, les datawarehouses et les data lakes et sans lequel les données recueillies seraient inexploitables.

1595252634393771

 

Les étapes du processus ETL

Comme son nom l'indique, l'ETL se décompose en trois phases : l'extraction, la transformation et le chargement.

 

Extract

Pour vous représenter le fonctionnement d'un ETL, prenez l'exemple d'une entreprise vendant des biens à la fois en ligne et dans ses magasins en propre et ayant besoin d'analyser simultanément toutes les tendances de vente.

Les données recueillies sur les clients proviennent donc de sources hétérogènes et ne seront, par conséquent, peut-être pas au même format. Le logiciel ETL va dans un premier temps collecter les données pertinentes auprès des différentes sources. Les données extraites sont ensuite stockées dans un data lake ou datawarehouse.

 

Transform

La transformation constitue l'étape essentielle du processus ETL. En effet, après l'extraction, lors de laquelle les données brutes sont agrégées et stockées, celles-ci sont nettoyées et converties au format des rapports de l'entreprise. Le nettoyage facilite la mise en conformité avec les normes internes de l'entreprise. Ces opérations, sans lesquelles les rapports seraient inexploitables, sont basées sur des règles prédéfinies :

  • La standardisation qui statue entre autres sur le format et le mode de stockage.
  • La déduplication, soit le suivi et la suppression des doublons.
  • La vérification pour surveiller les anomalies et supprimer les données inutilisables.
  • Le tri ou regroupement des données afin de maximiser l'efficacité des requêtes auprès du datawarehouse.

Comment allier croissance de l'entreprise et respect des données client ?

Téléchargez ce guide gratuit et découvrez comment adopter une stratégie de data management avec une approche « privacy-first ».

Load

Le processus ETL s'achève avec le chargement, complet ou incrémental, des données extraites et transformées dans le datawarehouse. Le chargement complet correspond généralement au premier chargement de la totalité des données dans l'entrepôt. Le chargement incrémental s'applique aux chargements suivants, qui ajoutent des données dans un entrepôt existant.

 

ETL ou ELT

Le processus ELT, Extract-Load-Transform, possède une architecture différente de l'ETL puisqu'il intervertit les deux dernières phases. Ainsi, les données extraites sont d'abord chargées dans le data lake et la transformation des données s'effectue au sein de cette base de données.

Après l'extraction, les données ne transitent donc pas sur un serveur de traitement temporaire comme dans le cas de l'ETL, mais sont directement livrées au data lake. Celui-ci aura la charge de trier, structurer et normaliser les données brutes. Ce processus peut, par exemple, être privilégié lorsque la vitesse d'investigation prime, puisqu'il met rapidement à disposition les informations brutes.

 

Les catégories ETL

Plusieurs classifications d'ETL sont possibles. Par exemple, fonctionnellement, certains logiciels sont plus axés sur la synchronisation des données tandis que d'autres, plus complexes, se concentrent sur leur transformation et leur enrichissement.

Voici une catégorisation selon les modalités d'hébergement de la solution, devenues un véritable enjeu, comme dans l'industrie informatique en général, mais qui constituent aussi aujourd'hui un moyen pour une entreprise de se différencier.

 

On-premise

Représentant historique du marché des ETL, le modèle on-premise a dominé le marché jusqu'à environ 2010, avec notamment les solutions IBM InfoSphere DataStage et Microsoft SSIS. Les données étaient alors gérées localement et processées en batches, ou traitements par lots, qui pouvaient durer des heures.

À l'instar de nombreuses autres solutions informatiques, l'ETL on-premise est aujourd'hui de plus en plus délaissé au profit du cloud, en raison de la complexité d'utilisation et du prix élevé de ce modèle.

 

Cloud

Dans cette configuration apparue en 2005, le serveur de l'ETL est basé sur un serveur distant dans le cloud. À mesure que les réseaux nationaux et internationaux devenaient plus performants, il est devenu de moins en moins pertinent de stocker les données dans des installations locales.

Le cloud est une solution plus légère, moins coûteuse et plus facile à mettre en place. Elle permet également de traiter les données en temps réel, avec un transfert des données extrêmement rapide, pouvant atteindre plusieurs gigabits par seconde. Fivetran et Alooma sont deux acteurs importants de cette catégorie.

 

Open source

Des ETL open source sont arrivés ces dernières années sur le marché, tels que Talend Open Studio et Apache Airflow. Leur utilisation est gratuite, même s'il faut prendre en compte les coûts de déploiement, sachant que leur développement est lié à celui des solutions de Business Intelligence open source (OSBI).

 

Pour aller plus loin, téléchargez ce guide gratuit et découvrez comment allier croissance de l'entreprise et respect des données clients.
Nouveau call-to-action

Sujets : Data management

Articles recommandés

HubSpot respecte votre vie privée. HubSpot utilise les informations que vous fournissez afin de vous faire parvenir des informations au sujet de contenu, de produits et de services pertinents. Vous pouvez vous désinscrire de ces communications à tout moment. Pour plus d'informations, veuillez consulter la politique de confidentialité de HubSpot.

Comment allier croissance de l'entreprise et respect de la vie privée.

Marketing software that helps you drive revenue, save time and resources, and measure and optimize your investments — all on one easy-to-use platform

START FREE OR GET A DEMO