Introduction
Au fur et à mesure que les technologies de l’information évoluent et progressent, la vitesse à laquelle les données sont générées et disséminées dans le SI ne cesse de croître. Gérer efficacement cette abondance de données est devenu une priorité absolue pour la plupart des organisations. Pour y parvenir, elles doivent préalablement travailler à la mise en place d’un cadre de Gouvernance. Or une Gouvernance des données réussie passe obligatoirement par un effort minimum et constant en matière de gestion des métadonnées.
Dans cet article nous allons exposer les raisons pour lesquelles la gestion des métadonnées est le bras armé de la Gouvernance des données. Mais pour commencer, revenons brièvement sur les définitions de chacun de ces deux domaines de compétence.
Objectifs de la Gouvernance des données
« La Gouvernance des données définit la logique de décision et les responsabilités qui vont encourager les comportements souhaités en matière de création, de stockage, d’utilisation, d’archivage, et de suppression des données ».
Cette définition est celle du Gartner®. Il convient toutefois de la compléter de manière à préciser ce que l’on entend exactement par « comportements souhaités ». Chez Redsen Consulting nous considérons la Data Governance comme : « une capacité de l’entreprise (principes organisationnels, logique de décision, moyens informatiques) à développer, dans le but de maximiser la valeur d’usage des données tout en minimisant les risques et les coûts liés à leur exploitation ». C’est le point essentiel : cadrer les processus de gestion de la donnée afin de maximiser sa valeur tout en limitant les coûts et les niveaux de risque.
Panorama des principaux types de métadonnées
Le terme « métadonnées » signifie littéralement « données sur les données ». La National Information Standards Organization propose la définition suivante :
« Les métadonnées sont de l’information structurée qui décrit, explique, localise ou facilite autrement l’obtention, l’utilisation ou la gestion d’une ressource d’information. Les métadonnées sont souvent appelées données des données ou information sur l’information. »
Elles documentent les concepts, les processus, les règles et les contraintes métier, ainsi que l’organisation des données et les relations entre les données. Les métadonnées sont donc l’outil grâce auquel l’entreprise capture et gère la connaissance sur son Système d’Information. Les professionnels de l’informatique ont l’habitude de classer les métadonnées en trois catégories (d’autres classifications existent) : métadonnées métier, métadonnées techniques, et métadonnées opérationnelles. Ces catégories permettent d’appréhender la diversité des informations qui entrent dans le champ lexical des métadonnées, ainsi que l’origine de ces informations.
- Les métadonnées métier se concentrent en grande partie sur le contenu et l’état des données, de même que sur les aspects liés à leur utilisation. Les métadonnées métier comprennent notamment : les noms non techniques et les définitions des concepts, domaines, entités et attributs ; les types et autres propriétés des attributs de données ; les domaines de valeurs ; les règles de calcul ; les règles métier. On y trouve aussi des informations qui renseignent sur la provenance et l’ascendance de la donnée (le terme consacré est data lineage). Ces métadonnées métier jouent un rôle clé dans la Gouvernance des données.
- Les métadonnées techniques exposent des détails techniques sur les structures de données, sur les applications qui hébergent les données et sur les processus qui les mettent en mouvement.
- Les métadonnées opérationnelles fournissent des informations sur les traitements réalisés et sur les accès aux données. Ces métadonnées vont alimenter le dispositif de contrôle utilisé par la Gouvernance des données.
Amélioration de la valeur d’usage
Du point de vue de la Gouvernance des données, il s’agit de s’assurer que la donnée contribue à l’efficacité opérationnelle des collaborateurs de l’organisation. Pour atteindre cet objectif d’efficacité, il faut travailler sur deux axes : la qualité intrinsèque de la donnée et son usabilité.
Or justement, la gestion des métadonnées (et plus particulièrement des métadonnées métier) propose plusieurs éléments de réponse pour adresser cette problématique :
- Faciliter la découverte d’informations pertinentes.
- Documenter et gérer les connaissances de la terminologie métier afin de s’assurer que les acteurs comprennent les données et qu’ils soient à même de les utiliser de façon cohérente.
- Accroître la confiance dans les données en fournissant un contexte d’utilisation et des indicateurs de mesure de la qualité des données.
- Favoriser la réutilisation d’une même information (master data et données de référence) au sein des différents processus et des différents systèmes.
- Empêcher que les processus métier ou la prise de décision soient pollués par des données périmées ou incorrectes.
C’est principalement sur les métadonnées métier que va reposer cette proposition de valeur et plus particulièrement sur le glossaire métier (Business Glossary).
La finalité d’un glossaire est de documenter et de stocker la terminologie métier d’une organisation, ainsi que les définitions et les relations entre ces termes. On y trouve tout ou partie des informations suivantes (liste non exhaustive) :
- Le nom du terme métier, sa définition, ses acronymes ou abréviations, ses synonymes.
- L’unité organisationnelle et la personne responsables de la gestion des données associées au terme métier ;
- Les applications qui gèrent ou consomment les données associées au terme métier ;
- Les catégorisations ou taxonomies associées ;
- Les règles de gestion et les exigences de qualité qui permettent leur application ;
- La provenance et l’ascendance des données associées au terme (data lineage) ;
- La source officielle ou faisant autorité pour la validation des données…
L’élaboration du glossaire métier et la gestion de ses évolutions sont généralement sous la responsabilité directe de la fonction Gouvernance des données. Sa gestion opérationnelle est déléguée à une personne ayant le rôle de Data Steward (intendant de la donnée en Français).
Réduction des coûts d’exploitation
Les capacités de gestion des métadonnées qui permettent de renforcer la valeur d’usage contribuent dans le même temps à réduire les coûts d’intégration des données entre les processus et les systèmes. Faciliter la compréhension de la donnée et garantir sa qualité c’est faciliter l’interopérabilité entre applications ainsi que l’alignement entre les producteurs et les consommateurs d’une même information. C’est également moins de retraitements dus à une mauvaise interprétation de la donnée, ou en raison d’une valeur de la donnée incorrecte ou manquante. De plus, les capacités de découverte et de recherche raccourcissent les temps d’accès à la donnée dont ont besoin les Data Scientists ou les Data Analysts. Elles sont utiles lorsque l’IT et les métiers souhaitent identifier des sources de données redondantes, afin de réduire leur nombre ou de rationnaliser la gestion des flux inter-applicatifs.
Les métadonnées opérationnelles, produites par les applications informatiques tout le long du cycle de vie de la donnée, participent elles aussi à la réduction des coûts d’exploitation. Elles accélèrent la détection et la résolution des problèmes découlant d’une mauvaise gestion de la donnée. L’usage de ces métadonnées contribue à limiter la baisse de productivité et les impacts financiers dus à cette mauvaise gestion ou à des contrôles sur les données insuffisants.
Gestion des risques métiers et réglementaires
La gestion des métadonnées ne se réduit pas au seul objectif de la gestion de la connaissance. Elle est aussi un élément fondateur de la gestion des risques. Les métadonnées sont nécessaires afin que l’organisation soit en mesure d’identifier ses données privées ou sensibles, et qu’elle puisse tirer profit de l’ensemble de ses données tout minimisant son exposition aux risques métier et réglementaires.
Sur ce troisième et dernier axe de la Gouvernance des données, l’organisation va devoir mettre en œuvre et exploiter les métadonnées de type opérationnelles, et en premier lieu les métadonnées présentes dans les pistes d’audit. Ces métadonnées sont générées en même temps que les données auxquelles elles se rapportent et sont protégées contre toute tentative de modification. Elles renseignent sur le contexte de production de la donnée : quand et par qui la donnée a été créée, consultée, validée, mise à jour, ou supprimée. Elles sont toujours associées à des objectifs de traçabilité ou de sécurité, et sont utilisées comme éléments de preuve pour les dispositifs de contrôle internes ou pour les audits externes.
A ces métadonnées opérationnelles, s’ajoutent les métadonnées métier et techniques qui rendent possible l’archivage et la préservation des données sur une durée définie. Ensemble, elles forment la base complète des informations nécessaires à la gestion des risques concernant la production et l’utilisation les données.
En conclusion
Les métadonnées sont des données. Elles doivent être gérées avec le même niveau de rigueur que les données produites et consommées par les processus métier. La qualité et l’exhaustivité des métadonnées influent directement sur leur visibilité et leur utilité. Sans métadonnées fiables, une organisation ne connaît pas les données dont elle dispose. Elle ne sait pas d’où elles proviennent, comment elles transitent entre les différents systèmes, qui peut les utiliser, si elles sont dignes de confiance… Sans gestion des métadonnées, une entreprise (quels que soient sa taille et son secteur d’activité) n’est pas en capacité d’installer une Gouvernance et des pratiques de gestion qui transforment les autres données (transactionnelles, décisionnelles, de référence) en actifs stratégiques.
Pour être « data-centric » une organisation doit d’abord être « metadata-centric ». Et pour être « metadata-centric » elle doit être « catalog-centric ».
Dans un prochain article (« Le Business Case du Data Catalog ») nous reviendrons sur la seconde partie de cette proposition ; i.e. sur les enjeux propres à la gestion des métadonnées et sur les avantages que peut offrir une solution dédiée à une gestion centralisée du catalogue des données…
Redsen Consulting aide les organisations à évaluer leur niveau de maturité dans le domaine du Data Management ! Remplissez le formulaire en ligne Audit Quick Start Data Management et bénéficiez d’un diagnostic gratuit réalisé par nos experts.