Parcours de la Qualité des Données dans l'Architecture Médallion
Mar 13, 2024Pourquoi la qualité des données est importante ?
La pertinence de la qualité des données est cruciale au sein de l 'entreprise.
En effet, sans une vérification rigoureuse de cette qualité cela peut impacter toute organisation dans son plan opérationnel et stratégique.
D'un point de vue stratégique, une mauvaise qualité des données peut se traduire par des informations erronées, entrainant des décisions erronées.
La conséquence de ce constat peut se traduire par une perte de revenue ainsi qu'une insatisfaction des clients, sans oublier les conséquences financières et juridiques associées.
Sur le plan opérationnel, la mauvaise qualité des données risque d'être source d'inefficacité car des ressources peuvent être gaspillées pour tenter de rectifier, de corriger ces erreurs, ou de réconcilier des données incohérentes.
Cela peut entrainer aussi des longues durées d'attente, perturbant la disponibilité de l'information. Il est donc important de gérer adéquatement la qualité des données. Assurer cette qualité à grande échelle notamment avec la grande volumétrie des données est un défi considérable. La clé du succès réside dans une synergie efficace entre le personnel de l'entreprise ,les procédures et la technologie adoptée.
Qualité et Gouvernance des données
Avant de mettre en œuvre les solutions technologiques, il est important de définir un cadre de qualité et de gouvernance des données qui respectent les aspects suivants :
- L'implication et l'engagement de l'entreprise pour gérer les données comme un asset actif précieux du socle data.
- Les personnes désignées et impliquées dans la gestion des données tels que les responsables, ainsi que les activités des propriétaires des données et les applications utilisées.
- Savoir si la qualité couvre à la fois les systèmes sources de données, et les plateformes de l'analytique de données. Pour cela il faut savoir mettre en œuvre les différents métriques et KPI(s) définissant la cohérence de la donnée tout au long du cycle de vie.
- L'accord de l'ensemble des parties prenantes sur le choix et la validation technique des métadonnées, ainsi que la solution technologique qui est important en fonction des usages métiers.
Une fois ce cadre bien établie, l'étape d'élaboration d'une architecture technique moderne intitulée architecture Lakehouse viendra pour mettre en œuvre la solution qui permet de gérer à la fois la qualité et la gouvernance de ces données.
Gestion de la qualité des données au sein de l'architecture Lakehouse
Lorsque l'on traite de la qualité des données, il est nécessaire de la contrôler dès la source de données. Cela facilite la détection et la correction précoces des erreurs.
Cette approche proactive empêche la propagation des données incorrectes en aval, mais ne suffit pas car il ne nous permet pas de corréler les données entre différents systèmes sources. La solution à ce problème consiste à extraire et à fusionner les données, mais cette démarche consolidée révèle souvent des nouveaux problème de qualité de données.
Les incohérences entre les systèmes devient évidents, d'où la mise en place d'une stratégie globale notamment sur la discipline du management des référentielles de données.
La gestion de la qualité des données au niveau de la source, et la gestion de la qualité des données au niveau des entrepôts de données présentent toutes les deux des avantages uniques. Le choix entre ces deux derniers doit être basé sur les besoins de l'entreprise.
Dans le cadre de cet article de blog, nous nous concentrerons sur l'exécution de mesures de qualité des données dans les entrepôts de données, car ce besoin est bien géré d'une manière avancée et plus flexible grâce à l'architecture Lakehouse.
Conception commune des entrepôts de données
Ces entrepôts de données ou les deltalakes de cette architecture sont des solutions innovantes qui combinent les capacités des datalakes et datawarehouses, qui sont devenus une pratique privilégiée par de nombreuse entreprises en raison de l'adaptabilité et l'évolutivité .
Cette architecture intègre des outils et des technologies de gestion de qualité de données ,comme par exemple les solutions technologiques de Microsoft et Databricks notamment avec le produit unity catalo, data catalog .., facilitant une gestion efficace des données au sein de l'organisation.
Le Lakehouse est généralement structuré en trois couches distinctes: bronze, silver et gold. Chaque couche est conçue avec des contrôles stricts de qualité de données, afin de garantir l'organisation et l'optimisation des données.
La couche Bronze
Dans l'architecture Lakehouse, cette couche de bronze sert d'étape initiale où les données sont stockées sous format brute initiale, généralement non structurées. A ce niveau les contrôles de qualité des données donnent la priorité à l'exhaustivité, à la cohérence et à l'exactitude, compte tenu de la nature non traitée de ces données.
Pour garantir cette qualité de données, de nombreuses entreprises utilisent un référentiel de métadonnées enrichit avec des informations complètes sur les schémas techniques des systèmes sources. Ces métadonnées de schéma déclenchent automatiquement l'exécution de toutes les règles de gestion de qualité des données, à la fois de manière déclarative et dynamique.
Ces contrôles valident généralement les aspects techniques du pipeline, et ils interdisent aux données de passer à la zone suivante si elles ne valident pas ces tests avec succès.
L'ingestion dans le bronze est généralement la première étape. Elle relève de la responsabilité des propriétaires de données, qui doivent collaborer conjointement avec les propriétaires d'applications et les data ingénieurs. C'est aux membres de l'équipe qui gèrent et fournissent les données de garantir les exigences de qualité demandées par les utilisateurs.
La couche silver
La couche silver est la deuxième étape de l'architecture Lakehouse ,et héberge les données traitées. Les contrôles de qualité des données dans cette couche mettent l'accent sur l'exactitude, la cohérence, et l'exhaustivité.
Ces contrôles concernent le nettoyage, le profilage et l'enrichissement des données, contribuant ainsi à l'obtention de données de haute qualité adaptée à l'analyse.
L'élaboration de règles de qualité des données pour la couche silver exige généralement une compréhension approfondie de l'aspect métier et commercial des données, en particulier lorsque les contrôles ciblent la cohérence fonctionnelle.
Ces contrôles permettent de garantir que les données sont de haute qualité et bien prêtes pour les analyses.
La couche gold
Cette couche gold est l'ultime phase de l'architecture Lakehouse où les données sont de très haute qualité.
Les entreprises considèrent souvent ces données dans cette couche comme leurs principaux actifs informationnels, à ce niveau les contrôles de qualité se concentrent sur des critères semblablement à la couche Silver tels que l'exactitude, la cohérence, la complétude ainsi la pertinence temporelle des données.
L'implémentation de ces contrôles exige une connaissance approfondie du domaine d'affaires et métiers, et implique les responsables des données.
Ces procédures sont essentielles pour assurer une qualité de données rendant ces informations fiables pour des décisions d'affaires.
Les contrôles de qualité au sein de la couche Gold sont souvent centralisés typiquement et réalisés de manière asynchrone, servant à notifier et à alerter les parties prenantes si nécessaire.
Cette couche Gold est également l'étape où différentes sources de données sont fusionnées, permettant de vérifier l'intégrité des références, et de découvrir des erreurs et des corrélations inattendues.
Nous aborderons dans un autre article l'avantage de la gouvernance des données dans l 'architecture médaillon