Comment améliorer la qualité des données ?
28 janvier 2021
28 janvier 2021
La qualité des données est un enjeu majeur pour toutes les entreprises. En effet, avoir accès à des données pertinentes et échanger des données exactes ne se limite pas aux seuls besoins des tableaux de bord décisionnels et des flux EDI. Au quotidien, tous les personnels de l’entreprise collectent, traitent, échangent des données. Tous rencontrent les mêmes difficultés, sources de perte de temps et de confiance.
En causes :
Nous allons voir les enjeux d’avoir des données de qualité, comment améliorer la qualité des données et enfin quels outils utiliser pour y parvenir.
A l’ère de leur transformation digitale, les entreprises traitent des volumes de données de plus en plus importants. Elles reçoivent et émettent des flux de data en continu.
De fait la gestion de la qualité des données ne se limite plus seulement à enregistrer des données correctes dans les systèmes d’information et dans leurs bases de données.
En effet, il faut définir des métadonnées pertinentes pour l’entreprise. Mais également à hiérarchiser les données, à organiser leur acquisition et leur diffusion. Pour finir il convient de les nettoyer, gérer leur versioning, etc.
Selon une étude publiée par IBM, le coût généré par des données de faible qualité est estimé à près de 3 milliards de dollars par an.
Des données de mauvaise qualité, inexactes ont des conséquences non seulement sur le pilotage de l’entreprise, entrainant des
décisions inadaptées. Mais aussi, sans que l’entreprise ne s’en aperçoive immédiatement, peuvent entraîner une dégradation de l’image de l’entreprise, des pertes de temps, des surcoûts de gestion, voire des pénalités financières :
Pour Gartner, 33 % des entreprises du top 100 de Fortune seraient régulièrement confrontées à des difficultés en raison d’une incapacité à évaluer la fiabilité de leurs informations.
Aussi bien que 93 % des entreprises soient convaincues que les données de qualité sont essentielles pour leurs actions marketing et commerciales, elles estiment que :
La définition de la qualité des données fait l’objet de nombreuses recherches. Pour les statisticiens la qualité des données se définit par une hiérarchisation de critères et de dimensions : précision, ponctualité, comparabilité, utilisabilité, pertinence, sécurité.
Pour une entreprise la définition de Wang (1) conviendra beaucoup mieux ; Wang définit la qualité d’une donnée en fonction de l’usage attendu par son utilisateur.
On proposera pour l’entreprise une définition de la qualité des données en trois dimensions :
La gestion de la qualité des données ou DQM (Data Quality Management) est la capacité de fournir des données de qualité pour les besoins métiers de l’entreprise. Il s’agira d’une démarche industrielle en quatre phases :
L’existant de l’entreprise est un système d’information composé d’applications, de logiciels, de bases de données. Le défi est de mener un processus exhaustif qui prend en compte tout l’existant et met en place une gestion globale et centralisée des données. Pour cela une démarche industrielle est nécessaire.
Première étape l’inventaire des données, qu’elles sont-elles ? où sont-elles ? qui les utilisent ?
Pour chaque donnée, sa description, son cycle de vie, son format. Et vérifier que cette définition pour chacune d’entre elles soit partagée par tous au sein de l’entreprise. Exemple, la notion de « client » doit être la même pour la Comptabilité, le Commercial, le Marketing et le SAV.
Les applications utilisées par l’entreprise représentent autant de silos de données. Entre chaque logiciel, la définition, le format, les informations complémentaires diffèrent, voire sont incohérentes. Il sera nécessaire de centraliser toutes ces données en seul lieu, où les applications et les utilisateurs viendront les chercher.
Les consommateurs de données sont les services qui utilisent les données de l’entreprise. Les consommateurs sont les logiciels
métiers, la plateforme EDI, les applications mobiles, les sites internet, etc. Ils doivent tous accéder au même référentiel
de données.
En priorité définir qu’elles seront les données de référence de l’entreprise.
Une donnée de référence est différente selon :
Ces données de référence constituent le référentiel des données de l’entreprise. Il est unique et partagé entre tous les utilisateurs
et les applications logicielles de l’entreprise.
La mauvaise qualité des données, les données fausses sont principalement la conséquence d’erreurs lors de la saisie ou de l’intégration dans le Système d’Information.
De fait, il sera nécessaire de mettre en place des automatismes de contrôle et de validation des données avant de les enregistrer.
Quels indicateurs pour mesurer la qualité des données ?
Le niveau de qualité peut se faire avec des mesures chiffrées comme :
Et de façon plus subjective en constatant le niveau de confiance des utilisateurs dans les données qu’ils utilisent au quotidien.
La mise en place d’une plateforme pour enregistrer, suivre et gérer des alertes ou incidents liée à la qualité des données, est un élément qui aide à améliorer cette confiance.
L’entreprise dispose de méthodes et d’outils pour gérer la qualité de ses données selon son mode fonctionnement, son métier.
MDM ou une Gestion des Données de Référence (GDR) est un ensemble d’outils et de méthodes pour la gestion des données de référence de l’entreprise. La fonction d’un MDM est de garantir l’intégrité du référentiel des données structurantes de
l’entreprise et que tous les services accèdent à tout moment à des données exactes, pertinentes et à jour.
EAI (Enterprise Application Integration) et ETL (Extract Transform Load), deux outils pour organiser et gérer les flux de data dans
l’entreprise.
La fonction principale d’une solution EAI est l’organisation rationnelle des échanges de données entre les différentes
applications du système d’information de l’entreprise. En évitant la multiplication des sources et des saisies. En effet, toutes les applications accèdent et partagent à la même source de données.
La fonction principale d’un ETL est de charger toutes les données de l’entreprise dans un Data Wharehouse. L’ETL extrait les données des différentes applications et bases de données, les consolide et les charge dans un entrepôt de données. Elles seront dès lors accessibles à tous.
Avec une gestion de la qualité des données, l’entreprise atteint ses objectifs :
Si ce sujet vous intéresse n’hésitez pas à faire un tour sur le Blog de Tenor. Vous y trouverez des articles sur le Master Data Management, les ETL ou encore la définition d’un EAI.
De même, contactez nos équipes pour obtenir un diagnostic de la gestion des données dans votre entreprise.