Comprendre le processus ETL (Extract Transform Load)
04 décembre 2020
04 décembre 2020
Un ETL (Extract Transform Load) est un ensemble d’outils et de méthodes qui combinent trois fonctions :
L’ETL est un élément clé dans la mise en œuvre d’un projet de Business Intelligence (BI) en entreprise. Ses fonctions sont de collecter des données provenant de sources différentes, de les traiter et de les charger dans un entrepôt de données.
Dans cet article découvrez :
Les trois fonctions d’un ETL sont :
Un ETL doit être en mesure de collecter, en temps réel ou par batch, toutes sortes de données brutes, données structurées ou non structurées ; en provenance des différentes sources du Système d’Information de l’entreprise, sur site et sur le cloud.
Cette étape consiste à extraire des données sélectionnées dans l’ensemble des bases de données (Oracle, SAP, MySQL, etc) des applications de l’entreprise. Cette opération nécessite l’utilisation de plusieurs technologies adaptées au type de la source de données : des passerelles, des utilitaires de réplication, des extracteurs, des connecteurs, des API.
Cette étape est la plus importante, elle garantit la qualité des données qui seront intégrées dans l’entrepôt de données. Pour chaque nature et origine de la donnée, des règles précises sont définies pour :
L’objectif est de produire des données propres prêtes à être chargées dans le Data Warehouse et servant de source pour les solutions d’analyse et de Business Intelligence.
Après cette étape, les données stockées sont accessibles et utilisables pour des :
Les systèmes d’information des entreprises sont de natures hétérogènes. Il existe plusieurs sources de données, de générations différentes : gestion commerciale, CRM (Customer Ressource Management), gestion de production, ERP, etc.
Les sources multiples, les structures de données différentes, les possibles redondances d’informations sont des obstacles à une analyse fine et rapide des informations de l’entreprise.
La solution : collecter toutes les données pertinentes de l’entreprise dans un Data Wharehouse, entrepôt de données. Ainsi, les données seront organisées et formatées à des fins d’analyse.
Un ETL est le principal outil pour déplacer des données d’une source vers une cible
Alimentation d’un Data Wharehouse : agréger les données dans un entrepôt pour ensuite les manipuler
L’alimentation de la base de données d’un outil de Business Intelligence peut s’effectuer à l’aide de scripts indépendants. Cette approche demande des développements spécifiques pour chaque source de données avec des risques importants de régression à chaque modification de données.
Dès lors que l’existant est composé :
Et qu’il nécessite :
Les outils ETL peuvent aussi être utilisés pour des opérations de migration de données d’anciennes applications vers de nouvelles. L’ETL permet d’extraire les données d’une ancienne application, de les nettoyer et de les convertir au format attendu par la nouvelle application et enfin, de les charger.
La transformation numérique des entreprises à l’ère du Big Data et de l’informatique décisionnelle multiplie les sources de données : IoT (Internet of Things), OpenData, Site e-commerce, Réseaux Sociaux, pages Web, etc.
Un ETL permet d’aller collecter ces données extérieures et de les charger dans un Data Lake (entrepôt de données), aussi appelé lac de données qui assure l’entreposage de données afin de pouvoir les exploiter.
Dans la mise en œuvre d’un projet MDM, les ETL sont utilisés pour les consolidations de données ainsi que pour alimenter en données des applications qui n’exigent pas une alimentation de données en masse.
Le principal avantage d’un ETL est sa contribution à la réussite du déploiement d’outils de Business Intelligence. Il permet de garantir la qualité des données analysées et d’en assurer leur synchronisation en temps réel avec l’opérationnel et le décisionnel de l’entreprise.
Un ETL est évolutif, il s’adapte facilement aux nouveaux besoins du DSI de l’entreprise. De nouvelles données et sources peuvent être facilement prises en compte par le simple ajout de nouvelles règles et de nouveaux connecteurs.
Mais aussi, en réalisant une cartographie des données et des flux détenus par l’entreprise, l’ETL contribue à veiller à la conformité RGPD (Règlement Général sur la Protection des Données).
Depuis plus de 30 ans, Tenor accompagne les entreprises dans la gestion de leurs données en proposants des solutions EDI, des solutions EAI ou de dématérialisation de facture. Contactez-nous et échangeons sur vos besoins.