Le terme Extract-Transform-Load, plus connu sous le sigle ETL, désigne un processus informatique mis au point dès les années 1970 lorsque les grandes entreprises ont commencé à agréger et stocker un volume conséquent de données disparates provenant de multiples sources. L'ETL a depuis poursuivi son essor, parallèlement à celui des datawarehouses, jusqu'à devenir aujourd'hui un procédé incontournable du fait du nombre croissant de données traitées dans le monde.
Ainsi, selon l'édition 2019 du Statista Digital Economy Compass, la quantité totale de données générée par les entreprises s'est élevée à 33 zettaoctets en 2018 et devrait atteindre les 175 zettaoctets d'ici 2025 et 2142 zettaoctects d'ici 2035. Pour rappel, un zettaoctet équivaut à un milliard de terraoctets, soit le stockage d'un disque dur externe classique multiplié par 1 milliard.
L'acronyme ETL vous paraît encore obscur ? Voici un guide complet sur le rôle et le fonctionnement d'un ETL au sein de votre écosystème de gestion des données.
Le processus ETL
Un logiciel ETL réalise le processus éponyme, c'est-à-dire qu'il extrait des données brutes depuis une base de données (Extract), les restructure (Transform) dans à un format adapté au datawarehouse vers lequel il transfère les données in fine (Load).
Il s'agit donc du chaînon fondamental de la gestion des données, opérant à la fois avec les sources de données, les datawarehouses et les data lakes et sans lequel les données recueillies seraient inexploitables.
Les étapes du processus ETL
Comme son nom l'indique, l'ETL se décompose en trois phases : l'extraction, la transformation et le chargement.
Extract
Pour vous représenter le fonctionnement d'un ETL, prenez l'exemple d'une entreprise vendant des biens à la fois en ligne et dans ses magasins en propre et ayant besoin d'analyser simultanément toutes les tendances de vente.
Les données recueillies sur les clients proviennent donc de sources hétérogènes et ne seront, par conséquent, peut-être pas au même format. Le logiciel ETL va dans un premier temps collecter les données pertinentes auprès des différentes sources. Les données extraites sont ensuite stockées dans un data lake ou datawarehouse.
Transform
La transformation constitue l'étape essentielle du processus ETL. En effet, après l'extraction, lors de laquelle les données brutes sont agrégées et stockées, celles-ci sont nettoyées et converties au format des rapports de l'entreprise. Le nettoyage facilite la mise en conformité avec les normes internes de l'entreprise. Ces opérations, sans lesquelles les rapports seraient inexploitables, sont basées sur des règles prédéfinies :
- La standardisation qui statue entre autres sur le format et le mode de stockage.
- La déduplication, soit le suivi et la suppression des doublons.
- La vérification pour surveiller les anomalies et supprimer les données inutilisables.
- Le tri ou regroupement des données afin de maximiser l'efficacité des requêtes auprès du datawarehouse.
Comment allier croissance de l'entreprise et respect de la vie privée ?
Maximisez vos performances marketing en regagnant la confiance de vos clients.
- Données zero-party
- Confiance client
- Gestion des données personnelles
- Outils à utiliser
Télécharger
Tous les champs sont obligatoires.
Merci d'avoir soumis le formulaire
Cliquez sur le lien pour accéder au contenu en tout temps
Load
Le processus ETL s'achève avec le chargement, complet ou incrémental, des données extraites et transformées dans le datawarehouse. Le chargement complet correspond généralement au premier chargement de la totalité des données dans l'entrepôt. Le chargement incrémental s'applique aux chargements suivants, qui ajoutent des données dans un entrepôt existant.
ETL ou ELT
Le processus ELT, Extract-Load-Transform, possède une architecture différente de l'ETL puisqu'il intervertit les deux dernières phases. Ainsi, les données extraites sont d'abord chargées dans le data lake et la transformation des données s'effectue au sein de cette base de données.
Après l'extraction, les données ne transitent donc pas sur un serveur de traitement temporaire comme dans le cas de l'ETL, mais sont directement livrées au data lake. Celui-ci aura la charge de trier, structurer et normaliser les données brutes. Ce processus peut, par exemple, être privilégié lorsque la vitesse d'investigation prime, puisqu'il met rapidement à disposition les informations brutes.
Les catégories ETL
Plusieurs classifications d'ETL sont possibles. Par exemple, fonctionnellement, certains logiciels sont plus axés sur la synchronisation des données tandis que d'autres, plus complexes, se concentrent sur leur transformation et leur enrichissement.
Voici une catégorisation selon les modalités d'hébergement de la solution, devenues un véritable enjeu, comme dans l'industrie informatique en général, mais qui constituent aussi aujourd'hui un moyen pour une entreprise de se différencier.
On-premise
Représentant historique du marché des ETL, le modèle on-premise a dominé le marché jusqu'à environ 2010, avec notamment les solutions IBM InfoSphere DataStage et Microsoft SSIS. Les données étaient alors gérées localement et processées en batches, ou traitements par lots, qui pouvaient durer des heures.
À l'instar de nombreuses autres solutions informatiques, l'ETL on-premise est aujourd'hui de plus en plus délaissé au profit du cloud, en raison de la complexité d'utilisation et du prix élevé de ce modèle.
Cloud
Dans cette configuration apparue en 2005, le serveur de l'ETL est basé sur un serveur distant dans le cloud. À mesure que les réseaux nationaux et internationaux devenaient plus performants, il est devenu de moins en moins pertinent de stocker les données dans des installations locales.
Le cloud est une solution plus légère, moins coûteuse et plus facile à mettre en place. Elle permet également de traiter les données en temps réel, avec un transfert des données extrêmement rapide, pouvant atteindre plusieurs gigabits par seconde. Fivetran et Alooma sont deux acteurs importants de cette catégorie.
Open source
Des ETL open source sont arrivés ces dernières années sur le marché, tels que Talend Open Studio et Apache Airflow. Leur utilisation est gratuite, même s'il faut prendre en compte les coûts de déploiement, sachant que leur développement est lié à celui des solutions de Business Intelligence open source (OSBI).
Pour aller plus loin, téléchargez ce guide gratuit et découvrez comment allier croissance de l'entreprise et respect des données clients.