linkedin twitter
data quality

Dans le cadre du Data Management, le domaine « Data Quality » vise à doter l’organisation d’un ensemble de données fiable pour supporter les opérations, la prise de décision et la planification.

Cinquième étape de notre parcours sur les bonnes pratiques de Data Management, le domaine « Data Quality » entre dans l’aspect opérationnel de la gestion des données. Il est donc à la charnière de domaines discutés précédemment (il en implémente les principes) pour mieux servir le domaine « Data Operations » (que nous aborderons dans notre prochain article).

1. Définition de la Data Quality

 

Le domaine « Data Quality » regroupe l’ensemble des bonnes pratiques pour détecter, évaluer et nettoyer les défauts sur les données. Ce domaine vise ainsi 3 objectifs (desservis par 4 disciplines) :

  • Développer des objectifs et des critères de qualité pour répondre aux exigences du métier (Data Quality Strategy)
  • Évaluer la qualité des données au regard des objectifs et des critères  à atteindre (Data Profiling et Data Quality Assessment)
  • Délivrer des données répondants aux exigences de qualité en optimisant les coûts (Data Cleansing)

2. Disciplines

2.1. Data Quality Strategy

La discipline « Data Quality Strategy » a pour finalité d’élaborer une stratégie pour obtenir le niveau de qualité nécessaire pour supporter les objectifs métiers.

 

Data Quality Strategy

 

Généralement, la stratégie de qualité des données va adresser les critères suivants :

  • Exactitude (véracité, précision, pertinence)
  • Complétude (disponibilité des attributs de données)
  • Couverture (disponibilité des données obligatoires)
  • Conformité (alignement avec des standards)
  • Cohérence (conformité avec modèles ou des règles d’uniformité)
  • Redondance
  • Intégrité (exactitude des liens/dépendances entre données)
  • Disponibilité (contenu à jour et disponible quand nécessaire)

Le développement d’une stratégie de « Data Quality » apportera les bénéfices suivants :

  • Partager au sein de l’organisation les critères prioritaires en matière de qualité des données
  • Améliorer le soutien aux processus métier en leur fournissant des données de valeur, au bon moment
  • Rationaliser le rapport coûts/bénéfices en matière de qualité des données
  • Assurer que la qualité des données contribue de manière effective à la stratégie de data management de l’organisation

Les principaux livrables de cette discipline sont :

  • Stratégie de qualité des données
  • Plan de mise en œuvre de qualité des données
  • Standards de qualité des données (critères, règles, bonnes pratiques)
  • Métriques sur la qualité des données
  • Implémentation des règles de qualité des données (bases de données, logiciel)

2.2. Data Profiling

Il y a souvent une confusion entre le « Data Profiling » et le « Data Quality Assessment », car le profilage de données est souvent la 1ère étape pour pouvoir faire l’évaluation de la qualité des données. Essayons donc de clarifier ces 2 notions.

Pour faire simple, le profilage de données est une activité exploratoire (très souvent assistée de logiciels spécialisés) dans laquelle on cherche à mieux comprendre l’ensemble de données à disposition. Cette activité va ainsi faire appel à des techniques statistiques (min, max, quartile, cardinalité…) pour mieux comprendre les données analysées.

Comme résultat du profilage, on obtiendra, entre autres, des exigences sur la qualité des données qui deviendra donc un « input » pour l’activité d’évaluation de la qualité des données (nous y reviendrons un peu plus loin dans cet article).

 

Data Profiling

 

On distingue 3 grandes catégories de profilage :

  • Profilage structurel. On cherche à comprendre à quel point les données sont correctement structurées ou non (cohérence, format, vérifications mathématiques si applicable). Par exemple : quel est le pourcentage de code postaux structurés selon une règle (4 ou 5 caractères).
  • Profilage du contenu. Il s’agit ici de comprendre le nombre de données en erreur par rapport à une signification sémantique. Par exemple : combien de numéros de sécurité sociale ne commencent pas par 1 ou 2.
  • Profilage des relations. Il s’agit ici de comprendre les incohérences entre plusieurs données au sein d’un même ensemble de données. Par exemple : les 2 premiers caractères du code postal qui ne correspondraient pas au bon nom de département.

Les principaux bénéfices de cette discipline sont :

  • Une meilleure compréhension des ensembles de données et des problèmes qu’ils contiennent
  • Une réduction des erreurs sur les données et donc une fiabilité accrue des données mises à disposition des processus métiers

Les principaux livrables de cette discipline sont :

  • Objectifs de profilage
  • Liste de contrôle de profilage
  • Méthodologie standard et bonnes pratiques de profilage
  • Plan de profilage
  • Rapport et dashboard de profilage des données (erreurs, métriques, recommandations)
  • Modèles de qualité des données

2.3. Data Quality Assessment

L’intention de la discipline « Data Quality Assessment » est de mesurer et évaluer la qualité des données au regard de  règles de qualités établies.

La criticité des données pour le métier influence directement le choix des données à évaluer. Il faut donc établir des principes organisationnels, en incluant des :

  • critères pour déterminer les données critiques de l’organisation
  • objectifs de niveau de qualité souhaité
  • seuils de niveau de qualité accepté

L’organisation se dote de règles qui serviront à évaluer la qualité des données. Le profilage des données est, entre autres, une source pour déterminer les exigences de qualité.

Data Quality Assessment

 

Les bénéfices de la discipline « Data Quality Assessment » sont :

  • Une meilleure fiabilité des données pour les processus métier (et donc une plus grande confiance)
  • Une meilleure capacité de l’organisation à valoriser ses données

Les principaux livrables de cette discipline sont :

  • Règles de qualité des données
  • Rapport d’évaluation de la qualité des données (incl. analyse d’impact et coût/recommandations pour remédiation)
  • Objectifs, cibles et seuils de qualité des données
  • Mesures standards pour la qualité des données
  • Principes organisationnels et standards d’évaluation de la qualité des données

2.4. Data Cleansing

La discipline « Data Cleansing » vise à définir les mécanismes, règles, processus et méthodes utilisés pour valider et corriger les données selon des règles établies par l’organisation. Les besoins des métiers et les risques induits sur les processus opérationnels guident ces règles.

Les activités de nettoyage des données doivent s’appuyer sur la stratégie de Data Quality qui va chercher à corriger les problèmes au plus proche de la source des données (y compris les fournisseurs de données quand cela est possible).

 

Data Cleansing

 

Les bénéfices de la discipline « Data Cleansing » sont :

  • Optimiser les activités de nettoyage de données sur les actifs stratégiques pour l’organisation
  • Eviter les redondances et harmoniser les activités de nettoyage de données
  • Mitiger les risques de données erronées

Les principaux livrables de cette discipline sont :

  • Exigences et principes de nettoyage des données
  • Standards de nettoyage des données (règles, mesures, méthodes, procédures, rôles et responsabilités)
  • Plan de nettoyage des données
  • Historique de changement aux données
  • Matrice de traçabilité
  • Rapports de nettoyage des données
  • Accords de Niveau de Service sur le nettoyage des données

3. Maturité

Pour terminer notre propos, essayons de comprendre quel serait le profil type d’une organisation sur chacun des niveaux de maturité.

  • Au niveau 1, les activités de profilage, d’évaluation et de nettoyage des données sont conduites localement (équipe, projet).
  • Au niveau 2, la stratégie de qualité des données est définie en lien avec les objectifs métiers. Les objectifs de profilage, de qualité et de nettoyage sont définis. Des rapports de profilage, d’évaluation et de nettoyage des données sont communiqués.
  • Au niveau 3, les méthodes de profilage, d’évaluation et de nettoyage des données sont standardisées. Les analyses coûts/bénéfices sur la qualité des données sont conduites.
  • Au niveau 4, des métriques sont en place pour mesure la performance du profilage et du nettoyage des données. Des métriques permettent de mesurer la qualité des données. La stratégie de qualité des données est ajustée sur la base de métriques.
  • Au niveau 5, les activités de profilage, d’évaluation et de nettoyage des données sont l’objet d’une amélioration continue basée sur des métriques. Des analyses de causes racines sont menées pour identifier les sources des problèmes.

Pour aller plus loin

Redsen Consulting aide les organisations à évaluer leur niveau de maturité dans le domaine de la Data Quality du Data Management ! Remplissez le formulaire en ligne Audit Quick Start Data Management et bénéficiez d’un diagnostic gratuit réalisé par nos experts.

Audit Quick Start Data Management

 

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Voir plus
scroll to top