Vous pouvez utiliser Dataplex pour créer une architecture de maillage de données. Ce guide vous explique comment utiliser les fonctionnalités Dataplex, comme un lac, des zones et des éléments, pour créer un maillage de données.
Un maillage de données est une approche organisationnelle et technique qui décentralise la propriété des données entre les propriétaires de données du domaine. Ces propriétaires fournissent les données en tant que produit de manière standard et facilitent la communication entre les différentes parties de l'organisation pour répartir les ensembles de données entre différents emplacements. En savoir plus sur les architectures de maillage de données
Objectifs
Dans ce guide, vous allez utiliser les entités Dataplex pour créer une architecture de maillage de données:
- Créez un lac Dataplex qui servira de domaine pour votre maillage de données.
- Ajoutez à votre lac des zones qui représenteront des équipes individuelles au sein de chaque domaine et fourniront des contrats de données gérés.
- Associez des éléments mappés aux données stockées dans Cloud Storage.
Coûts
Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :
Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.
Une fois que vous avez terminé les tâches décrites dans ce document, vous pouvez éviter de continuer à payer des frais en supprimant les ressources que vous avez créées. Pour en savoir plus, consultez la section Effectuer un nettoyage.
Avant de commencer
-
Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
Activer l'API Dataplex
Créer un bucket Cloud Storage
Vous avez besoin d'un bucket Cloud Storage pour stocker les éléments de données de votre maillage de données.
Suivez la procédure permettant de créer un bucket Cloud Storage.
- Nommez votre bucket.
- Pour Type d'emplacement, choisissez Région, puis sélectionnez us-central1 (Iowa) dans le menu déroulant.
Créer un domaine
Dans la console Google Cloud, accédez à la page Dataplex:
Accédez à la vue Gérer.
Cliquez sur Créer pour créer un lac qui servira de maillage de données.
Dans le champ Nom à afficher, saisissez
My data mesh
.Pour Région, sélectionnez
us-central1
.Sélectionnez le service Dataproc Metastore que vous avez précédemment créé et configuré comme métastore associé.
Cliquez sur Créer.
Créer des zones dans votre lac
Après avoir créé un domaine en créant un lac Dataplex, vous pouvez héberger des contrats de données gérés et des équipes individuelles au sein du domaine à l'aide de zones. Il existe deux types de zones:
Les zones brutes sont généralement utilisées pour stocker des données dans n'importe quel format à partir de sources externes dans Cloud Storage. Les zones brutes sont utiles pour les données qui nécessitent un traitement supplémentaire avant d'être prêtes à être utilisées.
Les zones sélectionnées sont utilisées pour les données structurées dans Cloud Storage, qui doivent être conformes à certains formats de fichier et organisées dans un répertoire compatible avec Hive. Ils sont particulièrement utiles pour les données prêtes à être utilisées et analysées.
Chaque domaine (par exemple, sales
, customers
ou products
) doit comporter une zone brute et une zone sélectionnée, au minimum.
Les zones supplémentaires permettent de gérer les contrats de données entre les équipes ou de fournir une répartition plus précise aux équipes d'un domaine donné. Par exemple, la gestion de l'inventaire dans le domaine du produit. Les propriétaires de données peuvent gérer les données de leur domaine et y accéder.
Dans Dataplex, dans la console Google Cloud, accédez à la vue Gérer.
Cliquez sur le nom du lac (
My data mesh
) auquel vous souhaitez ajouter une zone.Dans l'onglet Zones, cliquez sur
Add Zone (Ajouter une zone).Dans le champ Nom à afficher, saisissez
My sub domain
. Dataplex génère automatiquement un ID pour votre zone.REMARQUE: Le nom de zone devient le nom d'un ensemble de données BigQuery. Par conséquent, toutes les zones hébergées dans le même projet Google Cloud doivent posséder un ID unique, même si elles existent au sein de lacs différents.
Dans le champ Type, sélectionnez Zone brute.
Cliquez sur Créer.
Associer des éléments à vos zones
Associez des éléments de données à votre zone. Un élément de données, c'est-à-dire les ressources de stockage contenant vos données, peut être un bucket Cloud Storage ou un ensemble de données BigQuery. Il s'agit de la dernière étape de la création de votre architecture de maillage de données.
Dans la vue Gérer de Dataplex, cliquez sur le lac que vous avez créé (
My data mesh
).Dans l'onglet Zones, cliquez sur la zone (
My sub domain
) à laquelle ajouter l'élément.Dans l'onglet Assets, cliquez sur
Ajouter des assets.Cliquez sur Ajouter un asset.
Dans le champ Type, sélectionnez Bucket Cloud Storage.
Dans le champ Nom à afficher , saisissez
Data mesh asset
. Dataplex génère automatiquement un ID d'élément.Dans le champ Bucket, cliquez sur Parcourir.
- Sélectionnez votre bucket dans la liste.
- Cliquez sur Sélectionner.
Cliquez sur OK, puis sur Continuer.
Cliquez sur Continuer pour accepter les paramètres avancés par défaut.
Cliquez sur Envoyer pour ajouter votre bucket Cloud Storage en tant qu'élément de données à votre zone.
Effectuer un nettoyage
Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet mais supprimez les ressources individuelles.
Supprimer le projet
- Dans la console Google Cloud, accédez à la page Gérer les ressources.
- Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
- Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.
Supprimer l'architecture de votre maillage de données
Dans Dataplex, dans la console Google Cloud, accédez à la vue Gérer.
Pour le lac que vous souhaitez supprimer, cliquez sur
Afficher plus, puis sur Supprimer.Confirmez l'action en saisissant
delete
, puis cliquez sur Supprimer le lac.
Étapes suivantes
- En savoir plus sur les tâches de traitement des données
- Découvrez comment découvrir des données.
- En savoir plus sur les tâches liées à la qualité des données