Qu’est-ce qu’un Data Warehouse ?
04 juin 2021
04 juin 2021
Le Data Warehouse ou l’entrepôt de données fournit des données consolidées pour les analyses décisionnelles, il permet de stocker le référentiel des données métiers de références de l’entreprise. Les Data Warehouse sont devenues incontournables pour les DSI.
En effet, les entreprises ont de plus en plus de données à stocker. De fait, les simples bases de données ne suffissent plus. A l’ère du Big Data, les solutions de stockage sont diverses : lacs de données (Data Lakes), entrepôts de données et autres magasins de données.
Pour faire un choix parmi toutes ces solutions, la question que se posent tous les DSI est : quelles sont les solutions qui permettent de stocker les données, de les restituer facilement pour le bénéfice de l’entreprise ?
Découvrez dans cet article sur l’entrepôt de données. De quoi s’agit-il ? Comment l’entreposage de données se différencie d’un lac de données (Data Lake), d’un magasin de données, d’une base de données ? Et enfin 5 raisons pour lesquelles un entrepôt de données permet d’extraire de la valeur de vos données.
Les Data Warehouse ou entrepôts de données correspondent à des bases de données qui fournissent des données consolidées pour les analyses décisionnelles. De même, ils stockent le référentiel des données métiers de références de l’entreprise.
Bill Inmom, promoteur des entrepôts de données, cite « A Data WhareHouse as a subject-oriented, integrated, time-variant and non-volatile collection of Data in support of management’s decision-making process ».
C’est à dire, un entrepôt de données est un ensemble de données structurées, non volatiles, historisées et organisées pour devenir un support à la prise de décision.
Les données des Data Warehouse proviennent de différentes sources :
Toutes ces données sont chargées dans l’entrepôt de données via une solution ETL (Extract Transform Load). Les ETL permettent :
Le Data Warehouse stocke des données structurées, classées et non volatiles.
Le but est d’obtenir un ensemble de données conçues pour la prise de décision. En effet, elles permettent d’élaborer des statistiques, utiliser les outils de BI, et créer des rapports. Les données ne sont jamais modifiées, elles peuvent être extraites et analysées autant de fois que nécessaire.
Autre fonction stratégique de l’entrepôt de données : Le référentiel des données métier de l’entreprise est stocké dans l’entrepôt de données. L’entrepôt de données les conserve et les met ensuite à disposition des applications de l’entreprise. A leur chargement dans l’entrepôt, les données de références font donc l’objet de traitements et de contrôles garantissant leur véracité.
Les données des lacs de données sont du domaine des Data Scientist pour de l’analyse prédictive, de l’analyse comportementale, essentiellement à des fins marketing.
Un lac de données est un système évolutif de stockage et d’analyse de données selon les experts. Les données sont de tous types et stockées brutes dans leur format natif. Les spécialistes de la données , les Data scientistes et Data analystes utilisent principalement les Data Lakes pour l’extraction de connaissances ainsi que la réalisation des analyses prédictives.
Pour que le Data Lake soit exploitable et ne devienne pas un Data swamp ou « marécage de données », il est nécessaire d’y joindre des règles de gestion pour en assurer la qualité et la clarté :
Tout ce qui produit des données numériques est source de données d’un lac de données. Qu’ils s’agissent de logiciels métiers, d’historiques des navigateurs internet, d’objets connectés, de fichiers de log, de mails, de coordonnées GPS, de vidéos, d’images, de sons, de tweets, de pages Facebook, etc.
Ces données sont structurées, semi-structurées, non-structurées. Elles restent en état brut. Au contraire un entrepôt de données contient des données traitées, et essentiellement structurées.
Les lacs de données peuvent aussi être sources de données d’un entrepôt. Dès lors les données seront traitées et mises en forme pour y être chargées. Comme par exemple : des avis consommateurs. Et réciproquement les entrepôts de données aussi peuvent être sources de lacs de données. Les données sont chargées sans transformation.
Les données des magasins de données sont des données filtrées et triées à des fins de statistiques et analyses métiers.
Deux approches théoriques des magasins de données, Bill Inmon définit le Datamart comme un flux de données issu du Data Warehouse. Le Datamart regroupe des données spécialisées par métiers. Les Datamart sont en périphérie de l’entrepôt.
Alors que pour Ralph Kimball, les Datamart sont des sous-ensembles de Data Warehouse qui se composent de tables liées entres-elles. Chaque magasin de données regroupe une activité métier de l’entreprise. L’ensemble des Datamart constitue le Warehouse.
Ces deux approches convergent, l’idée est de rendre l’entrepôt de données plus facilement accessible aux opérationnels et experts métiers de l’entreprise. Les utilisateurs ont alors accès qu’aux données utiles à leurs besoins métiers.
Un magasin de données est une vue partielle et sélective du contenu d’un entrepôt de données. Données sélectionnées et regroupées à des fins spécifiques, données financières, commerciales, comptables, pour des requêtes métiers habituelles et répétitives.
La limite de rester au niveau des Datamart est de se cantonner dans des silos métiers. Pour des analyses transverses il sera donc nécessaire d’accéder à l’ensemble du Data Warehouse.
Uniquement les bases de données peuvent créer, modifier, supprimer des données. Elles enregistrent en temps réel l’activité de l’entreprise.
Les bases de données sont conçues pour fonctionner en temps réel. Dans l’entreprise, des sources applicatives ou transactionnelles peuvent alimenter les bases de données. C’est à dire, à travers les applications et logiciels de l’entreprise. Ce sont donc les bases de données des CRM, ERP, Gestion Commerciales, TMS, WMS, etc.
Les bases de données stockent toute l’activité de l’entreprise, les transactions commerciales, comptables, financières, les mouvements de personnel, etc.
Les bases de données sont les principales sources de données des entrepôts de données.
L’entrepôt de données permet à l’entreprise de stocker ses données et d’en tirer de la valeur pour faciliter la prise de décision et améliorer la productivité :
Si le sujet vous intéresse, à lire cet excellent article sur la différence entre EAI et ETL ou celui sur l’amélioration de la qualité des données. Découvrez aussi la définition d’un ETL pour approfondir le sujet.
Depuis plus de trente ans, Tenor vous accompagne dans la mise en œuvre de solutions EDI, solutions EAI et solutions de dématérialisation. Contactez-nous pour lancer votre projet dès aujourd’hui.