Home Blog Qu’est-ce qu’un Data Warehouse ?

Qu’est-ce qu’un Data Warehouse ?

data analyst

Le Data Warehouse ou l’entrepôt de données fournit des données consolidées pour les analyses décisionnelles, il permet de stocker le référentiel des données métiers de références de l’entreprise. Les Data Warehouse sont devenues incontournables pour les DSI.

 

En effet, les entreprises ont de plus en plus de données à stocker. De fait, les simples bases de données ne suffissent plus.  A l’ère du Big Data, les solutions de stockage sont diverses : lacs de données (Data Lakes), entrepôts de données et autres magasins de données.

 

Pour faire un choix parmi toutes ces solutions, la question que se posent tous les DSI est : quelles sont les solutions qui permettent de stocker les données, de les restituer facilement pour le bénéfice de l’entreprise ?

 

Découvrez dans cet article sur l’entrepôt de données. De quoi s’agit-il ? Comment l’entreposage de données se différencie d’un lac de données (Data Lake), d’un magasin de données, d’une base de données ? Et enfin 5 raisons pour lesquelles un entrepôt de données permet d’extraire de la valeur de vos données.

 

 

L’entrepôt de données ou Data Warehouse

 

Les Data Warehouse ou entrepôts de données correspondent à des bases de données qui fournissent des données consolidées pour les analyses décisionnelles. De même, ils stockent le référentiel des données métiers de références de l’entreprise.

 

Bill Inmom, promoteur des entrepôts de données, cite « A Data WhareHouse as a subject-oriented, integrated, time-variant and non-volatile collection of Data in support of management’s decision-making process ».

C’est à dire, un entrepôt de données est un ensemble de données structurées, non volatiles, historisées et organisées pour devenir un support à la prise de décision.

 

Les fonctions des entrepôts de données

 

Les données des Data Warehouse proviennent de différentes sources :

  • De sources internes à l’entreprise: bases de données des applications de gestion, de production, CRM, Gestion Commerciale, ERP, Paie RH, etc ;
  • De sources externes : Open Data, objets connectés, etc.

 

Toutes ces données sont chargées dans l’entrepôt de données via une solution ETL (Extract Transform Load). Les ETL permettent :

 

  • D’unifier les données : nommage normalisé, uniformisation des types et des unités, mise dans un même format normé ;
  • De nettoyer les données : vérification de l’intégrité, suppression des doublons, traitement des valeurs manquantes ,détections des erreurs, des incohérences ;
  • De charger les données dans l’entrepôt ;
  • De gérer l’historique : versionning, suppression ou agrégation des données anciennes.

 

Le Data Warehouse stocke des données structurées, classées et non volatiles.

Le but est d’obtenir un ensemble de données conçues pour la prise de décision. En effet, elles permettent d’élaborer des statistiques, utiliser les outils de BI, et créer des rapports. Les données ne sont jamais modifiées, elles peuvent être extraites et analysées autant de fois que nécessaire.

 

Autre fonction stratégique de l’entrepôt de données : Le référentiel des données métier de l’entreprise est stocké dans l’entrepôt de données. L’entrepôt de données les conserve et les met ensuite à disposition des applications de l’entreprise. A leur chargement dans l’entrepôt, les données de références font donc l’objet de traitements et de contrôles garantissant leur véracité.

 

Data Warehouse vs Data Lake ou lac de données

 

Les données des lacs de données sont du domaine des Data Scientist pour de l’analyse prédictive, de l’analyse comportementale, essentiellement à des fins marketing.

 

Un lac de données est un système évolutif de stockage et d’analyse de données selon les experts. Les données sont de tous types et stockées brutes dans leur format natif. Les spécialistes de la données , les Data scientistes et Data analystes utilisent principalement les Data Lakes pour l’extraction de connaissances ainsi que la réalisation des analyses prédictives.

 

Pour que le Data Lake soit exploitable et ne devienne pas un Data swamp ou « marécage de données », il est nécessaire d’y joindre des règles de gestion pour en assurer la qualité et la clarté :

 

  • Un référentiel de métadonnées pour classifier et identifier les informations stockées ;
  • Une politique et des outils de gouvernance ;
  • Une organisation logique et physique.

 

Tout ce qui produit des données numériques est source de données d’un lac de données. Qu’ils s’agissent de logiciels métiers, d’historiques des navigateurs internet, d’objets connectés, de fichiers de log, de mails, de coordonnées GPS, de vidéos, d’images, de sons, de tweets, de pages Facebook, etc.

 

Ces données sont structurées, semi-structurées, non-structurées. Elles restent en état brut. Au contraire un entrepôt de données contient des données traitées, et essentiellement structurées.

 

Les lacs de données peuvent aussi être sources de données d’un entrepôt. Dès lors les données seront traitées et mises en forme pour y être chargées. Comme par exemple : des avis consommateurs. Et réciproquement les entrepôts de données aussi peuvent être sources de lacs de données. Les données sont chargées sans transformation.

 

 

Data Warehouse vs Datamart ou magasin de données

 

Les données des magasins de données sont des données filtrées et triées à des fins de statistiques et analyses métiers.

 

Deux approches théoriques des magasins de données, Bill Inmon définit le Datamart comme un flux de données issu du Data Warehouse. Le Datamart regroupe des données spécialisées par métiers. Les Datamart sont en périphérie de l’entrepôt.

Alors que pour Ralph Kimball, les Datamart sont des sous-ensembles de Data Warehouse qui se composent de tables liées entres-elles. Chaque magasin de données regroupe une activité métier de l’entreprise. L’ensemble des Datamart constitue le Warehouse.

 

Ces deux approches convergent, l’idée est de rendre l’entrepôt de données plus facilement accessible aux opérationnels et experts métiers de l’entreprise. Les utilisateurs ont alors accès qu’aux données utiles à leurs besoins métiers.

Un magasin de données est une vue partielle et sélective du contenu d’un entrepôt de données. Données sélectionnées et regroupées à des fins spécifiques, données financières, commerciales, comptables, pour des requêtes métiers habituelles et répétitives.

La limite de rester au niveau des Datamart est de se cantonner dans des silos métiers. Pour des analyses transverses il sera donc nécessaire d’accéder à l’ensemble du Data Warehouse.

 

 

Data Warehouse vs Database ou base de données

 

Uniquement les bases de données peuvent créer, modifier, supprimer des données. Elles enregistrent en temps réel l’activité de l’entreprise.

Les bases de données sont conçues pour fonctionner en temps réel. Dans l’entreprise, des sources applicatives ou transactionnelles peuvent alimenter les bases de données. C’est à dire, à travers les applications et logiciels de l’entreprise. Ce sont donc les bases de données des CRM, ERP, Gestion Commerciales, TMS, WMS, etc.

Les bases de données stockent toute l’activité de l’entreprise, les transactions commerciales, comptables, financières, les mouvements de personnel, etc.

Les bases de données sont les principales sources de données des entrepôts de données.

 

 

5 raisons pour lesquelles l’entrepôt de données est bénéfique à l’entreprise

 

L’entrepôt de données permet à l’entreprise de stocker ses données et d’en tirer de la valeur pour faciliter la prise de décision et améliorer la productivité :

 

  1. Des données métiers, nettoyées et pertinentes : Les ETL alimentent les entrepôts de données avec des données métiers propres et fiables. Leur format unifié leurs permettent d’être lisible par tous.
  2. Un historique des données : Les données stockées dans les entrepôts sont historisées. Les données anciennes peuvent être agrégées.
  3. Des données classées et non-volatiles pour les outils de BI : Les données classées et non-volatiles permettent la mise en œuvre d’outils de Business Intelligence à des fins de statistiques et d’analyse décisionnelle.
  4. Un référentiel unique des données de l’entreprise : L’entrepôt de données stocke les données de référence de l’entreprise dans un référentiel accessible par toutes les applications et logiciels de l’entreprises.
  5. Une intégration dans le SI de l’entreprise : Enfin le Data Warehouse échange de façon bidirectionnelle dans le Système d’Information de l’entreprise, comme il est alimenté par les ETL, Il met à disposition des applications logicielles le référentiel des données métiers ainsi qu’il est la source unique de données consolidées des outils d’analyse décisionnelle.

 

 

Data warehouse

 

Si le sujet vous intéresse, à lire cet excellent article sur la différence entre EAI et ETL ou celui sur l’amélioration de la qualité des données. Découvrez aussi la définition d’un ETL pour approfondir le sujet.

 

Depuis plus de trente ans, Tenor vous accompagne dans la mise en œuvre de solutions EDI, solutions EAI et solutions de dématérialisation. Contactez-nous pour lancer votre projet dès aujourd’hui.