Promouvoir une vision Data axée sur le long terme : le rôle crucial du Data Mesh et des data products dans les architectures de données modernes
Apr 24, 2024L’un des sujets les plus importants dans le domaine de l’architecture des données notamment dans la gouvernance des données est le Data Mesh ou "le maillage des données" qui vient récemment constituer une nouvelle approche de la conception des données d’entreprise avec un potentiel important d’aller au-delà des limites des architectures des données antécédentes.
Ce concept a été élaboré et publié depuis 2019 par Zhamak Dehghani, de nombreuses entreprises l’appliquent et l’adoptent aujourd’hui en tant approche décentralisée de l’ingénierie de données.
Dans cet article partie 1 data mesh architecture, nous explorerons les stratégies clés pour promouvoir une telle vision en mettant l’accent sur les concepts.
En quoi consiste un data mesh ?
Le data mesh également appelé le maillage de données, est un cadre architectural avec un modèle basé sur un écosystème de données organisé autour de domaines d’activité qui permet de résoudre les problèmes avancés de sécurité de données grâce à une propriété distribuée et décentralisée.
Il est régi par des fonctionnalités en libre-service qui permettent aux différents équipes métiers, et interfonctionelles de gouverner, de gérer, et de servir des données dans leurs domaines, aussi il peut générer des données distinctes qui offrent des avantages et des processus claires pour une meilleure prise de décision de l'entreprise.
Les composants du data mesh
Voici ci-dessous les quatre principes qui sont au cœur de l’architecture logique du data mesh :
- 1 - Propriété du domaine (domain ownership) : adoption d’une architecture distribuée dans laquelle les équipes du domaine notamment les producteurs de données qui conservent l’entière responsabilité des données tout au long du cycle de vie, depuis la capture jusqu'à l’analyse et la réutilisation, en passant par la conservation des données.
- 2 - Les données en tant que produit (data as product) : en appliquant les principes de management du produit au cycle de vie de l’analyse des données, en veillant à ce que des données de qualité soient fournies aux consommateurs, qu'ils soient internes ou externes du domaine.
- 3 - Plate-forme d’infrastructure en libre-service (self-service infrastructure platform) : en adoptant une approche agnostique du cycle de vie du data analyse en utilisant des méthodes et outils communs pour construire, exécuter et maintenir la manipulation des data products.
- 4 - Gouvernance fédérée : garantir un écosystème de management de données qui adhère aux règles de l’organisation et aux règlementations de l’entreprise par le bais de la standardisation, et de la normalisation des référentiels de données.
Consommation des data products dans le Lakehouse :
Le data product dans le data mesh est une composante importante car il ne s’agit pas seulement du dataset mais des données traitées comme un produit qui doivent être bien décrites, interopérables et destinées à une meilleure exploitation par les différents utilisateurs.
En plus des données fournies, viennent s'ajouter les métadonnées associées qui peuvent contenir du code, des tableaux de bords, des fonctionnalités, des modèles et autres ressources nécessaires à la création et au maintien du data product.
Types des data products au sein du data mesh
Il existe différents types de data Product dans le data mesh notamment :
- les data products physiques
- les data products virtuels
- les requêtes stockées
Les data products physiques sont des ensembles de données persistantes qui ont été produites, stockées, et publiées dans la maketplace des données, afin de les consommer depuis d'autres data domains.
Les data products virtuels sont des vues virtuelles qui intègrent des données provenant d'une ou plusieurs sources de données sous-jacentes( y compris des data products physiques prêtes à l'emploi) à la demande, d'une manière temporelle ou en continue, ils peuvent être publiés comme des vues matérialisés pour gagner en performance.
Les requêtes stockées sont généralement des requetés SQL qui peuvent être publiées comme des services, et par la suite les exploiter, et les invoquer à la demande via des API REST, GraphQL.
Après avoir créer des data products et les avoir stockées dans des tables silvers dans le lakehouse, les consommateurs du métier peuvent les exploiter dans le data mesh en utilisant la marketplace du lakehouse, notamment les donnes du catalogue des données. L’utilisateur a accès au métadonnées associées à chaque data product incluant la signification décrite dans le glossaire d’entreprise avec un historique de chaque data product, ainsi que la manière dont il a été produit.
Les data products sont des données : fiables, découvrables et adressables, sécurisés, exploitables et interopérables avec un autodescription de chaque donnée.
Architecture Data Mech :
L'architecture du data mesh suivante illustre davantage l'ensemble de ces aspects et composants décrits avant :