Aux dires des entreprises, la Data Quality est un de leurs enjeux prioritaires au cours des prochains mois. Et pour cause, une qualité de données irréprochable est indispensable à la fois :
- À la construction d’un référentiel de données commun à tous les services, piliers de la Customer Experience
- Aux ambitions autour de l’Intelligence Artificielle
Pourtant, comme beaucoup de termes (Intelligence Artificielle ou Cloud sans chercher trop loin), chacun a sa propre définition. Il n’y a pas de consensus sur les dimensions et métriques pour mesurer la qualité de données.
Prenons un peu de recul. En faisant une synthèse de la plupart des définitions. La Data Quality peut être définie comme l’adéquation des données au besoin, ou à l’usage d’un utilisateur. Mais, il est possible que pour exactement les mêmes données, en fonction de leur emploi, des utilisateurs puissent avoir des attentes totalement différentes en matière de qualité des données.
Par exemple, le service de comptabilité a besoin de données précises au centime près. Contrairement à l’équipe marketing, qui peut se contenter d’un nombre approximatif de ventes pour déterminer les tendances des ventes et organiser ses campagnes. De plus, les besoins métiers sont susceptibles d’évoluer au cours du temps. La mesure de la qualité des données doit suivre le mouvement.
Les objectifs de Data Quality, et les métriques à mettre en œuvre, doivent donc être pensés relativement aux besoins et aux usages de chaque activité métier. Ils doivent être révisés au cours du temps. C’est-à-dire en fonction de l’activité de l’entreprise et de l’évolution de son marché.
La norme ISO 8000
Difficile de parler de Data Quality sans parler de la norme ISO 8000. Elle traite, dans son autodéfinition, « de types spécifiques de données, y compris, mais sans s’y limiter, des données de référence (Master Data), des données de transaction et des données-produits ». Son ambition, autour d’une série de publications complémentaires, est de fournir un cadre pour mettre en place une gouvernance. Mais aussi, des processus permettant d’améliorer la qualité des données tout au long du cycle de vie des produits.
N’y cherchez pas des mesures et des KPI prêts à l’emploi. Sa vocation étant d’adresser tout type d’entreprise et tout secteur d’activité. Et si vous adhérez à mon assertion que la Data Quality doit être pensée au travers du prisme Métier, cela serait un non-sens. La norme va en revanche vous proposer une méthode pour définir, mettre en place, suivre et améliorer au cours du temps ces mesures et KPI dans votre contexte particulier.
La démarche définit la Data Quality selon trois axes complémentaires :
- La qualité syntaxique (conformité au format)
- La qualité sémantique (conformité au monde réel)
- Et la qualité pragmatique (conformité à l’utilisabilité pour l’utilisateur)
La qualité syntaxique décrit la conformité des données au référentiel enregistré (métadonnées). Concrètement, vous avez défini un standard au sein de votre entreprise tel qu’un PIM (le référentiel des produits fabriqués et vendus par votre entreprise) ou une Master Data (censée contenir l’ensemble des données de référence de la société), et vous vérifiez la concordance entre les données réellement stockées et les données qui doivent y être en vérité. Cela revient à vérifier la validité des données. Ainsi que leurs cohérences au regard des schémas implémentés en base.
La qualité sémantique décrit quant à elle l’exactitude et l’exhaustivité de la représentation par les données d’un phénomène ou d’un produit. Par exemple, et en simplifiant, si je veux être capable de différencier entre eux des produits de manière exacte et unique, quels sont les critères minimums et suffisants (exhaustifs) pour y arriver ? Cela consiste à cartographier correctement des phénomènes et des propriétés du monde « réel » ou « vrai ». (je vous passe les digressions et circonvolutions que la norme fait autour de ces notions).
Enfin la qualité pragmatique revient à ne stocker que des données dont on a réellement l’usage. Cela semble évident. Mais si une donnée ne sert à aucun de vos processus de production, de logistique, de marketing, de vente, etc, il ne faut pas la stocker ou la mesurer. Et ça bien entendu, il n’y a que le métier qui peut le dire.
Ne vous demandez plus si vos données sont de qualité !
Découvrez notre solution de Data Quality
augmentée par la Data Science et le Machine Learning.
Quelles dimensions et mesures pour la Data Quality ?
De nombreux acteurs se sont penchés sur la définition des dimensions et des mesures associées à la qualité de données. On parle de 5, 6 dimensions, voire plus . Il n’y a pas de réel consensus. Je vous propose d’en étudier les principales au regard de la norme ISO 8000, dont les travaux ont débuté en 2002. Les premières publications datent de 2009. Des améliorations et mises à jour sont proposées régulièrement. Disons-le autrement, c’est une boussole sur laquelle nous pouvons raisonnablement nous appuyer.
Parlons d’abord des erreurs associées à la qualité syntaxique. Celles que l’on peut adresser par comparaison avec un standard explicite. Le prérequis étant bien entendu que ce référentiel existe et qu’il ait été déployé. Il est dès lors possible de mettre en place des mesures, des contrôles et corrections, idéalement automatiques grâce à du développement informatique. Ou en utilisant des outils IT spécialisés comme les ETL (Extraction, transformation, chargement) ou ESB (Enterprise Service Bus) par exemple.
La dimension Validité (US : Validity) sert à mesurer la standardisation globale de la Data au sein de l’entreprise. C’est-à-dire la capacité à faire respecter des règles Métier aux données et à définir des référentiels partagés. Elle mesure si une valeur est conforme aux standards établis ou vérifie une formule calculée à l’avance. Cela concerne par exemple le format, le type de données, la plage de valeurs autorisées. Par exemple, une date d’expédition d’un produit ne peut pas être antérieure à une date de fabrication. Ou encore, un code postal en France doit être sur 5 digits et sur une plage de valeurs déterminées, etc.
On peut également mesurer la fragilité de l’entreprise aux silos de données en gérant la dimension Cohérence (US : Consistency). Y-a-t-il des problèmes lorsque vous procéderez à une réconciliation de SI dissociés, ou de données ayant suivi des parcours métier disjoints ou complexes ? Typiquement, cela peut concerner des informations Client contradictoires entre celles des équipes commerciales et celles du service après-vente. Il peut s’agir des données des lignes de production des usines différentes de celles du reporting présenté à la direction générale, etc.
En fonction du niveau de détail dans l’analyse de la qualité syntaxique que vous voulez atteindre, vous pouvez décider de mesurer la Conformité (US : Conformity) des données. Sous-partie de la Validité des données, il s’agit ici d’appréhender le niveau de maîtrise des conventions de nommage et de formatage des données au sein de votre entreprise. Le format AAAA/MM/JJ-HH :MM :SS (par exemple) que vous avez défini pour les dates associées aux commandes Client est-il bien appliqué pour l’ensemble de votre SI ? Les montants des commandes quel que soit le pays des clients doivent être stockés en euro sur un format obligatoirement numérique (par exemple) : est-ce bien le cas ?
Voilà pour la partie qualité syntaxique. On peut bien sûr définir d’autres dimensions spécifiques à un contexte ou à un Métier. Mais la validité, la cohérence, voire la conformité sont je pense incontournables.
Intéressons-nous maintenant aux erreurs liées à la qualité sémantique . On considèrera l’Exactitude (US : Accuracy), l’Exhaustivité (US : Completeness), formellement définies dans la partie vocabulaire de la norme (ISO :8000-2 :2020), ainsi qu’éventuellement l’Unicité. On s’éloigne de l’IT pour se rapprocher du Métier, avec des dimensions qu’il devient difficile de gérer avec l’outillage classique de la Data Quality.
Je vous laisse apprécier la définition d’une « valeur vraie », servant à mesurer l’Exactitude d’une donnée. C’est-à-dire : « valeur qui caractérise une caractéristique parfaitement définie dans les conditions qui existent lorsque la caractéristique est considérée. Note 1 à l’article : La valeur vraie est un concept théorique et, en général, ne peut pas être connue avec exactitude ». Dit autrement, une valeur déclarée vraie à un instant « t », peut être différente si on la considère ultérieurement alors que les conditions ont changé.
En pratique, et c’est d’ailleurs ce que recommande l’ISO, on va plutôt juger de l’Exactitude d’une donnée au regard d’une valeur de référence. La différence par rapport à la Validité, c’est qu’on va ici s’intéresser à la signification de la donnée, plutôt qu’au format. Par exemple, si je fabrique un produit en usine dont je sais garantir le volume à ±0,1% (sur une chaine de production, sauf cas exceptionnel, vous n’aurez jamais un produit parfaitement identique à un autre), seront considérées comme exactes toutes les valeurs dans l’intervalle . Les autres étant dès lors inexactes. Les valeurs exactes sont celles qui répondent aux exigences fixées par le Métier en tenant compte des limites et contraintes de captation de données.
La dimension d’Exhaustivité, permet de s’assurer que l’on dispose de l’ensemble des données nécessaires et suffisantes pour dérouler le processus Métier auquel elles sont destinées. Par exemple, une entreprise de livraison a besoin de données pour définir clairement un colis de manière unique. Et ainsi identifier toutes les contraintes et obligations liées à cette livraison (niveau de sécurité, délais prévus…). Ainsi que pour gérer toutes les étapes du processus allant du point de retrait au point de distribution. Notez que disposer dans ce contexte d’information sur le contenu du colis ne nous est ici d’aucune utilité.
Sous-ensemble des autres dimensions, on peut cependant suivre spécifiquement la dimension Unicité (US : Uniqueness) pour mesurer l’efficacité de mise en œuvre d’un référentiel unique par exemple. D’un point de vue de la qualité syntaxique cela revient à un dédoublonnage de ses données que ce soit au sein d’une même base ou lors du rapprochement de plusieurs SI. Il faut également prendre en compte l’aspect sémantique en traitant le cas des données différentes mais traitant du même objet. Par exemple, des produits identiques mais sous des nomenclatures différentes en fonction des zones APAC ou EMEA.
Reste la qualité pragmatique, c’est-à-dire l’utilisabilité, que l’on va chercher à mesurer au plus près des besoins fonctionnels des utilisateurs des données. Notons entre autres :
- L’Utilité (stocker et gérer des données qui ne servent à rien coute inutilement cher)
- L’Accessibilité (garantir l’accès en temps et en heure et la pérennité des données sur la durée)
- La Sécurité (respect des règles de sécurité de l’entreprise et du RGPD ; une activité à part entière dépassant largement le cadre de la Data Quality)
Auxquelles on adjoindra des indicateurs et mesures spécifiques au processus Métier cible.
Conclusion
À la lecture de cet article, vous aurez je pense perçu la complexité que peut représenter la mise en œuvre d’une mesure performante de la qualité de vos données. Avancer de manière structurée et itérative est impératif. C’est d’ailleurs ce que propose la norme ISO 8000 qui s’appuie sur le toujours efficace principe PDCA (plan-do-check-act) de Deming.
En ce qui concerne la mise en œuvre des dimensions et des mesures de la Data Quality, ma conviction est qu’il n’y a pas de réponse universelle. On peut cependant dégager les grands principes suivants.
En fonction des équipes que vous pourrez mobiliser, focalisez vos efforts sur un périmètre restreint dans une démarche bottom-up ; un processus Métier, puis un autre du même domaine fonctionnel, puis un domaine Métier, etc. Les KPI et mesures étant très sensibles aux finalités Métiers, il est peu probable qu’une démarche d’ensemble soit pertinente, et vous aurez à gérer des avis divergents voire contradictoires qui pénaliseront votre action. Cherchez des Quick Win en privilégiant des périmètres relativement simples à couvrir, mais dont la non-qualité est un problème.
Travaillez également en hiérarchisant vos chantiers et en commençant d’abord par les dimensions de la qualité syntaxique, puis celle de la qualité sémantique, et enfin celles de la qualité pragmatique.
Il sera plus facile d’obtenir des succès rapides sur des dimensions syntaxiques proches de IT, dont les règles souvent simples peuvent être automatisées à l’aide d’un outillage spécialisé. La partie syntaxique est par ailleurs susceptible d’être réutilisable ou transposable à d’autres périmètres Métier.
Les parties sémantiques et pragmatiques sont quant à elles très liées à des fonctionnalités Métier. Mettez en place un nombre limité de dimensions génériques. Choisissez avec application les dimensions spécifiques en vous posant systématiquement la question de leur intérêt vs votre contexte et le processus à mettre en qualité. Côté outillage, les solutions du marché sont peu abouties à ce jour. Mais, c’est justement sur ce sujet que novencia a décidé de porter son effort.