Qu'est-ce qu'un maillage de données ?

Le maillage de données est un framework architectural permettant de gérer les données dans des organisations complexes. Contrairement aux modèles centralisés, il décentralise la propriété des données en les confiant à des équipes spécifiques à un domaine. Cette approche permet d'éliminer les goulots d'étranglement en traitant les données comme un produit, mais elle introduit également de nouveaux besoins en ressources. La réussite d'un maillage de données repose sur la capacité des équipes en charge de domaines à maîtriser des compétences spécifiques en ingénierie des données et en gouvernance. Pour les organisations disposant des ressources nécessaires pour soutenir les équipes dispersées, le maillage de données peut améliorer l'agilité. Pour d'autres, les modèles centralisés comme les entrepôts de données ou les lacs de données restent une solution plus efficace.

Principes fondamentaux du maillage de données

Un maillage de données ne se limite pas à un nouvel ensemble d'outils ou de technologies. Il s'agit d'un changement dans la façon dont les entreprises envisagent leurs données. L'approche du maillage de données repose sur quatre principes fondamentaux. Ce sont ces principes qui rendent cette approche particulièrement efficace pour résoudre les problèmes des architectures de données traditionnelles et centralisées.

Propriété orientée domaine

Dans une architecture de données traditionnelle, une seule équipe centrale, comme une équipe informatique ou d'ingénierie des données, est responsable de toutes les données. Dans un maillage de données, la propriété des données est répartie entre les domaines d'activité qui créent les données. Par exemple, une équipe commerciale serait propriétaire des données client qu'elle génère, et une équipe marketing serait propriétaire des données de campagne qu'elle crée. Les équipes sont ainsi plus responsables et redevables des données qu'elles produisent.

Données en tant que produits

Avec la propriété orientée domaine, les équipes qui créent des données doivent également les traiter comme un produit. De la même manière qu'une entreprise fournit un produit de qualité à un client, une équipe chargée d'un domaine de données doit fournir des données de qualité aux autres équipes qui en ont besoin. Cela signifie que les données doivent être faciles à découvrir, à comprendre et à utiliser. Elles doivent également être fiables, sécurisées et bien documentées, avec des contrôles d'accès intégrés pour que seules les personnes autorisées accèdent aux données destinées à leur cas d'utilisation.

Infrastructure de données en libre-service en tant que plate-forme

Pour que les données puissent être traitées comme des produits, un maillage de données utilise une plate-forme en libre-service. Cette plate-forme est un ensemble d'outils et de services qui permet aux équipes en charge des domaines de données de créer et de gérer facilement leurs produits de données, sans avoir besoin de l'aide d'une équipe de données centrale. Il peut s'agir d'une plate-forme simple et facile à utiliser qui automatise de nombreuses tâches techniques liées à la gestion des données, comme le stockage, la sécurité et la gouvernance.

Gouvernance fédérée des calculs

Comme les données sont décentralisées et réparties entre de nombreuses équipes, il est nécessaire de s'assurer que tout le monde respecte les mêmes règles. C'est là qu'intervient la gouvernance fédérée des calculs. Dans ce modèle, une petite équipe centrale définit les règles et les normes globales pour toutes les données. Cependant, l'application de ces règles est gérée par les équipes en charge de chaque domaine de données. Cette méthode combine le meilleur des deux approches : des règles centralisées et une exécution décentralisée.

Questions fréquentes sur le maillage de données

Dans un maillage de données, un produit de données doit être facile à trouver, accessible, fiable, autodescriptif et sécurisé. Les utilisateurs de données doivent pouvoir le découvrir facilement, comprendre sa nature et apprécier sa qualité. Il doit également disposer de règles d'accès claires et cohérentes pour assurer la sécurité.

L'implémentation d'un maillage de données est un processus incrémentiel. Il est souvent préférable de commencer par un petit projet pilote et quelques équipes de domaines volontaires. Commencez par identifier un domaine d'activité qui pourrait bénéficier d'une plus grande autonomie en matière de données. Créez ensuite une plate-forme en libre-service minimale qui permet à cette équipe de créer un produit de données. Si le projet est un succès, vous pouvez utiliser les résultats comme démonstration de faisabilité pour convaincre l'ensemble de l'organisation d'adopter l'architecture de maillage de données.

L'un des plus grands défis est le changement culturel. Il peut être difficile pour une équipe de données centralisée de renoncer au contrôle. Il existe également des défis techniques, comme la sécurité des données et la gestion d'un système distribué. Toutefois, avec une planification minutieuse et une stratégie de communication claire, ces difficultés peuvent être surmontées.

Un maillage de données est conçu pour fonctionner avec les systèmes de données existants. Il ne nécessite pas de remplacer vos lacs de données ou entrepôts de données actuels. Il peut y être intégré. Un maillage de données peut agir comme une nouvelle couche offrant aux équipes un moyen unifié et en libre-service d'accéder aux données provenant de différentes sources.

On pense souvent à tort que le maillage de données est un produit que l'on peut acheter. Mais ce n'est pas le cas. Il s'agit d'une nouvelle façon d'organiser et de gérer les données. Une autre idée reçue est que le cloud n'est réservé qu'aux grandes entreprises. Bien qu'il soit plus répandu dans les grandes entreprises, ses principes peuvent également s'appliquer aux petites organisations.

Il peut être difficile d'évaluer la réussite d'un maillage de données, car les avantages ne sont souvent pas financiers au départ. L'évaluation repose sur des facteurs, comme la vitesse de livraison des données, le nombre d'équipes utilisant la plate-forme de données et la confiance que les équipes accordent aux données qu'elles exploitent. Avec le temps, ces améliorations peuvent se traduire par de meilleurs résultats commerciaux et un retour sur investissement (ROI) plus élevé.

Maillage de données et architectures de données traditionnelles

L'approche du maillage de données a été créée pour résoudre certains des problèmes courants des architectures de données traditionnelles. Ces modèles, tels que les entrepôts de données ou les lacs de données appartenant à des services ou des équipes spécifiques, peuvent créer des silos de données et des risques de gouvernance, en particulier à mesure qu'une entreprise se développe. Le maillage de données résout ces problèmes en répartissant la propriété et en donnant plus d'autonomie aux équipes, tout en conservant des contrôles centraux pour la gouvernance et la surveillance des données entre les domaines.

Caractéristique

Un maillage de données

Architectures traditionnelles

Modèle architectural

Décentralisé et réparti entre les domaines d'activité

Centralisées et monolithiques, gérées par une seule équipe.

Propriété des données

Les données appartiennent aux équipes de domaines qui les créent et les utilisent.

Les données sont détenues et gérées par une équipe de données centrale.

Accès aux données

Les équipes accèdent aux données via des produits de données standardisés.

Les équipes doivent passer par une équipe centrale pour obtenir des données.

Évolutivité

Peut évoluer facilement à mesure que de nouvelles équipes en charge de domaines et de nouveaux produits de données sont ajoutés.

Peuvent devenir un goulot d'étranglement à mesure que l'entreprise se développe et que le volume de données augmente.

Qualité des données

Les équipes en charge de domaines sont responsables de la qualité de leurs propres données, ce qui peut renforcer la confiance et la précision.

La qualité des données peut être incohérente, car l'équipe centrale peut manquer de contexte pour chaque domaine.

Gouvernance des données

La gouvernance est fédérée, avec des normes et des règles globales définies de manière centralisée, mais appliquées par les équipes métier.

La gouvernance est centralisée et gérée entièrement par une seule équipe.

Cas d'utilisation

Idéal pour les grandes organisations complexes, avec des données diversifiées et des unités commerciales indépendantes.

Idéales pour les petites organisations ou pour des cas d'utilisation spécifiques nécessitant une source de référence unique.

Expertise technique/Ressources nécessaires

Nécessite des compétences techniques distribuées (ingénierie, gouvernance) au sein de chaque équipe spécialisée dans un domaine.

Centralisent l'expertise technique dans une seule équipe informatique ou d'ingénierie des données principale.

Caractéristique

Un maillage de données

Architectures traditionnelles

Modèle architectural

Décentralisé et réparti entre les domaines d'activité

Centralisées et monolithiques, gérées par une seule équipe.

Propriété des données

Les données appartiennent aux équipes de domaines qui les créent et les utilisent.

Les données sont détenues et gérées par une équipe de données centrale.

Accès aux données

Les équipes accèdent aux données via des produits de données standardisés.

Les équipes doivent passer par une équipe centrale pour obtenir des données.

Évolutivité

Peut évoluer facilement à mesure que de nouvelles équipes en charge de domaines et de nouveaux produits de données sont ajoutés.

Peuvent devenir un goulot d'étranglement à mesure que l'entreprise se développe et que le volume de données augmente.

Qualité des données

Les équipes en charge de domaines sont responsables de la qualité de leurs propres données, ce qui peut renforcer la confiance et la précision.

La qualité des données peut être incohérente, car l'équipe centrale peut manquer de contexte pour chaque domaine.

Gouvernance des données

La gouvernance est fédérée, avec des normes et des règles globales définies de manière centralisée, mais appliquées par les équipes métier.

La gouvernance est centralisée et gérée entièrement par une seule équipe.

Cas d'utilisation

Idéal pour les grandes organisations complexes, avec des données diversifiées et des unités commerciales indépendantes.

Idéales pour les petites organisations ou pour des cas d'utilisation spécifiques nécessitant une source de référence unique.

Expertise technique/Ressources nécessaires

Nécessite des compétences techniques distribuées (ingénierie, gouvernance) au sein de chaque équipe spécialisée dans un domaine.

Centralisent l'expertise technique dans une seule équipe informatique ou d'ingénierie des données principale.

Cas d'utilisation du maillage de données

L'approche du maillage de données peut s'avérer particulièrement utile pour les grandes organisations complexes qui possèdent plusieurs unités commerciales et une grande quantité de données. Voici quelques cas d'utilisation courants dans lesquels un maillage de données peut être très utile.

Un maillage de données peut aider une organisation à tirer davantage de valeur de ses initiatives d'analyse de données et d'informatique décisionnelle. Grâce aux données issues de différents domaines, les data scientists et les analystes peuvent obtenir une vision plus complète de l'activité. Par exemple, une entreprise de commerce de détail peut combiner les données client issues de son domaine de vente avec les données sur le trafic Web issues de son domaine marketing afin de mieux comprendre le comportement des clients.

L'initiative de vision à 360° du client vise à créer une vue complète du client en combinant des données provenant de différentes sources. Cela peut s'avérer complexe dans une architecture de données centralisée, car les données sont souvent cloisonnées dans différents services. Un maillage de données facilite grandement cette tâche en fournissant une méthode standardisée pour accéder aux données provenant de différents domaines, tels que les ventes, le marketing et l'assistance, et les combiner.

Dans le secteur financier, un maillage de données peut être utilisé pour la surveillance et la détection des fraudes en temps réel. Par exemple, une banque pourrait avoir un produit de données pour les transactions et un autre pour les données de connexion des clients. Un système de détection des fraudes peut alors accéder aux deux produits de données pour identifier les activités suspectes. La nature décentralisée d'un maillage de données peut favoriser la rapidité et la fiabilité indispensables à ces types d'applications.

À mesure que les réglementations sur la confidentialité des données se complexifient, il peut être difficile d'assurer la conformité dans un modèle de données centralisé. Un maillage de données peut faciliter la mise en conformité réglementaire en permettant aux équipes métier de gérer leurs propres produits de données et de s'assurer de leur conformité avec les lois locales. Ceci est particulièrement important pour les multinationales qui doivent se conformer à différentes règles de souveraineté des données dans différents pays.

Les applications et les agents d'IA ont besoin de données de haute qualité tenant compte du contexte pour fonctionner efficacement. Dans un maillage de données, les équipes métier sélectionnent les données en fonction de leur utilisation, en veillant à ce qu'elles soient propres, étiquetées et documentées. Les data scientists peuvent ainsi entraîner des modèles sur des données d'entrée fiables, sans consacrer trop de temps à la préparation des données. De plus, les agents IA peuvent accéder à ces produits de données modulaires via des API pour récupérer des informations en temps réel, ce qui leur permet d'effectuer des tâches complexes dans différents domaines d'activité avec une plus grande précision.

Avantages de l'adoption d'un maillage de données

L'adoption d'un maillage de données peut apporter des avantages considérables à une organisation. En adoptant un modèle décentralisé, les entreprises peuvent surmonter les goulots d'étranglement des architectures traditionnelles et obtenir de meilleurs résultats commerciaux.


Agilité et évolutivité

Un maillage de données peut être plus agile. Chaque domaine de données peut fonctionner de manière indépendante, ce qui permet à l'organisation de se développer et d'évoluer plus rapidement. Cela peut faciliter l'ajout de produits et de services de données, sans provoquer d'interruptions.

Qualité et fiabilité des données

Un maillage de données peut renforcer la responsabilité des équipes en charge des domaines qui produisent les données. Comme ces équipes sont également celles qui exploitent principalement leurs propres données, elles ont fort intérêt à en assurer la qualité. Cela peut permettre d'obtenir des données plus fiables.

Rentabilité

Un maillage de données peut également aider une entreprise à réduire ses coûts. Avec une plate-forme de données centralisée, les équipes doivent souvent attendre qu'une équipe de données centrale les aide à répondre à leurs besoins en données. Cela peut entraîner des retards et un gaspillage de ressources.

Implémenter une data fabric unifiée et une gouvernance centralisée

Dataplex Universal Catalog agit comme une data fabric unifiée et fournit une couche de gouvernance centrale sur votre maillage de données. Il peut vous aider à découvrir, à gérer et à administrer vos données distribuées dans différents environnements, en garantissant une source de référence unique pour les métadonnées et les règles. Pour commencer, vous devrez créer un lac Dataplex. Un lac Dataplex est un conteneur de premier niveau, généralement associé à un domaine d'activité, qui héberge vos données.

Voici les étapes à suivre pour créer un lac :

  1. Dans la console Google Cloud, accédez à la page Lacs Dataplex Universal Catalog.
  2. Après avoir cliqué sur "Créer", attribuez un nom descriptif à votre lac (par exemple, "Domaine des données de vente" ou "Maillage des données marketing").
  3. Choisissez une région pour votre lac.
  4. Une fois le lac créé, vous pouvez ajouter des zones. Une zone est un sous-domaine de votre lac qui représente une équipe ou un contrat de données spécifique. Par exemple, dans le lac "Domaine des données de vente", vous pouvez créer une zone brute pour les données non traitées et une zone organisée pour les données nettoyées et prêtes pour la production.
  5. Une fois les zones créées, vous pouvez leur associer des ressources. Une ressource est constituée des données réelles stockées dans un service tel que Cloud Storage ou BigQuery. Il vous suffit d'indiquer l'emplacement de vos données à la zone Dataplex.

Dataplex analyse ensuite automatiquement ces ressources pour identifier et classer les métadonnées.

Accélérer la découverte grâce à une place de marché de produits de données

Un aspect essentiel du principe des "données en tant que produit" est de rendre les données facilement identifiables. Le partage de données BigQuery vous permet de créer une place de marché pour les produits de données. Les équipes de domaines peuvent ainsi partager en toute sécurité des produits de données avec d'autres équipes, sans copier ni déplacer les données. Les consommateurs de données peuvent trouver les données dont ils ont besoin et y accéder via une interface claire et bien définie.

Créer et partager des produits de données sur une plate-forme sans serveur

Les services sans serveur de Google Cloud permettent aux équipes métier de créer et de gérer leurs propres produits de données à moindre coût. BigQuery est un entrepôt de données sans serveur puissant qui permet aux équipes d'analyser de grands ensembles de données rapidement et efficacement. Dataflow est un service de traitement de données sans serveur qui permet de créer et d'automatiser des pipelines de données pour les produits de données. Ces services réduisent le besoin d'une équipe centrale d'ingénierie des données pour gérer l'infrastructure, ce qui rend les équipes métier plus autonomes et agiles.

Assurer la conformité avec le contrôle des accès basé sur les attributs

La gouvernance fédérée des calculs est le principe selon lequel une équipe centrale définit les règles globales, mais laisse aux équipes en charge des domaines le soin de les appliquer. Les conditions Identity and Access Management (IAM) de Google Cloud fournissent les outils nécessaires à sa mise en œuvre. Les conditions IAM permettent un contrôle des accès basé sur les attributs (ABAC), où vous pouvez configurer des autorisations précises en fonction des attributs des données. Par exemple, vous pouvez créer une règle qui autorise uniquement un utilisateur à accéder aux données client de sa région, ce qui contribue à rester en conformité avec les réglementations sur la souveraineté des données telles que le RGPD.

Relevez vos plus grands défis avec Google Cloud

Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.

Passez à l'étape suivante

Profitez de 300 $ de crédits gratuits et de plus de 20 produits Always Free pour commencer à créer des applications sur Google Cloud.

  • Faites des économies grâce à notre approche transparente concernant la tarification
  • Le paiement à l'usage de Google Cloud permet de réaliser des économies automatiques basées sur votre utilisation mensuelle et des tarifs réduits pour les ressources prépayées. Contactez-nous dès aujourd'hui afin d'obtenir un devis.
Google Cloud