Restez organisé à l'aide des collections
Enregistrez et classez les contenus selon vos préférences.
Vous pouvez utiliser Dataplex Universal Catalog pour développer une architecture de maillage de données. Ce guide de démarrage rapide vous explique comment créer un maillage de données à l'aide des fonctionnalités de Dataplex Universal Catalog, telles que les lacs, les zones et les éléments.
Un maillage de données est une approche technique et organisationnelle qui décentralise la propriété des données parmi les propriétaires de données d'un domaine. Ces propriétaires fournissent les données en tant que produit de manière standardisée et facilitent la communication entre les différentes parties de l'organisation pour distribuer les ensembles de données aux différents emplacements. En savoir plus sur les architectures de maillage de données
Objectifs
Dans ce guide, vous allez utiliser les entités de Dataplex Universal Catalog pour créer une architecture de maillage de données :
Vous allez créer un lac Dataplex Universal Catalog qui servira de domaine pour votre maillage de données.
Vous allez ajouter des zones à votre lac qui représenteront les diverses équipes de chaque domaine et fournir des contrats de données gérés.
Vous allez associer des éléments faisant référence aux données stockées dans Cloud Storage.
Coûts
Dans ce document, vous utilisez les composants facturables de Google Cloudsuivants :
Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.
Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.
Une fois que vous avez terminé les tâches décrites dans ce document, supprimez les ressources que vous avez créées pour éviter que des frais vous soient facturés. Pour en savoir plus, consultez la section Effectuer un nettoyage.
Avant de commencer
In the Google Cloud console, on the project selector page,
select or create a Google Cloud project.
Cliquez sur Créer pour créer un lac qui servira de maillage de données.
Dans le champ Nom à afficher, saisissez My data mesh.
Pour Région, sélectionnez us-central1.
Sélectionnez le service Dataproc Metastore que vous avez créé et configuré précédemment en tant que metastore associé.
Cliquez sur Créer.
Créer des zones dans votre lac
Après avoir établi un domaine en créant un lac Dataplex Universal Catalog, vous pouvez ajouter des contrats de données gérés et des équipes distinctes au domaine en utilisant des zones.
Il existe deux types de zones :
Les zones brutes sont généralement utilisées pour stocker des données issues de sources externes dans Cloud Storage, quel que soit leur format. Ces zones sont utiles pour les données qui nécessitent un traitement supplémentaire avant d'être prêtes à l'emploi.
Les zones organisées sont utilisées pour les données structurées dans Cloud Storage qui doivent être conformes à certains formats de fichiers et organisées dans une structure de répertoire compatible avec Hive. Ces zones sont particulièrement utiles pour les données prêtes à être utilisées et analysées.
Chaque domaine (par exemple, sales, customers, products) doit comporter au moins une zone brute et une zone organisée.
Des zones supplémentaires sont utilisées afin de gérer les contrats de données entre les équipes ou de permettre une répartition plus précise pour les équipes d'un domaine donné. Par exemple, la gestion de l'inventaire dans le domaine des produits. Les propriétaires de données peuvent gérer les données de leur domaine et y accéder.
Dans la console Google Cloud , accédez à la vue Gérer de Dataplex Universal Catalog.
Cliquez sur le nom du lac (My data mesh) auquel vous souhaitez ajouter une zone.
Dans l'onglet Zones, cliquez sur Ajouter une zoneadd.
Dans le champ Nom à afficher, saisissez My sub domain. Dataplex Universal Catalog génère automatiquement un ID pour la zone.
Pour Type, sélectionnez Zone brute.
Cliquez sur Créer.
Associer des éléments à vos zones
Associez des éléments de données à votre zone. Un élément de données, c'est-à-dire les ressources de stockage qui contiennent vos données, peut être un bucket Cloud Storage ou un ensemble de données BigQuery. Il s'agit de la dernière étape pour créer votre architecture de maillage de données.
Dans la vue Gérer de Dataplex Universal Catalog, cliquez sur le lac que vous avez créé (My data mesh).
Dans l'onglet Zones, cliquez sur la zone à laquelle ajouter l'élément (My sub domain).
Dans l'onglet Éléments, cliquez sur addAjouter des éléments.
Cliquez sur Ajouter un élément.
Pour Type, sélectionnez Bucket Cloud Storage.
Dans le champ Nom à afficher, saisissez Data mesh asset. Dataplex Universal Catalog génère automatiquement un ID d'élément.
Dans le champ Bucket, cliquez sur Parcourir.
Sélectionnez votre bucket dans la liste.
Cliquez sur Sélectionner.
Cliquez sur OK, puis sur Continuer.
Cliquez sur Continuer pour accepter les paramètres avancés par défaut.
Cliquez sur Envoyer.
Effectuer un nettoyage
Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.
Supprimer le projet
In the Google Cloud console, go to the Manage resources page.
Sauf indication contraire, le contenu de cette page est régi par une licence Creative Commons Attribution 4.0, et les échantillons de code sont régis par une licence Apache 2.0. Pour en savoir plus, consultez les Règles du site Google Developers. Java est une marque déposée d'Oracle et/ou de ses sociétés affiliées.
Dernière mise à jour le 2025/09/05 (UTC).
[[["Facile à comprendre","easyToUnderstand","thumb-up"],["J'ai pu résoudre mon problème","solvedMyProblem","thumb-up"],["Autre","otherUp","thumb-up"]],[["Difficile à comprendre","hardToUnderstand","thumb-down"],["Informations ou exemple de code incorrects","incorrectInformationOrSampleCode","thumb-down"],["Il n'y a pas l'information/les exemples dont j'ai besoin","missingTheInformationSamplesINeed","thumb-down"],["Problème de traduction","translationIssue","thumb-down"],["Autre","otherDown","thumb-down"]],["Dernière mise à jour le 2025/09/05 (UTC)."],[],[],null,["# Build a data mesh\n\n*** ** * ** ***\n\nYou can use Dataplex Universal Catalog to build a data mesh architecture. This quickstart\nshows you how to use Dataplex Universal Catalog features, such as a lake, zones, and\nassets, to build a data mesh.\n\nA data mesh is an organizational and technical approach that decentralizes data\nownership among domain data owners. These owners provide the data as a product\nin a standard way and facilitate communication among different parts of the\norganization to distribute datasets across different locations. Learn more about\n[data mesh architectures](https://services.google.com/fh/files/misc/build-a-modern-distributed-datamesh-with-google-cloud-whitepaper.pdf).\n\nObjectives\n----------\n\nIn this guide, you use the Dataplex Universal Catalog entities to build a\ndata mesh architecture:\n\n- Create a Dataplex Universal Catalog lake that acts as the domain for your data mesh.\n- Add zones to your lake that represents individual teams within each domain and provide managed data contracts.\n- Attach assets that map to data stored in Cloud Storage.\n\nCosts\n-----\n\n\nIn this document, you use the following billable components of Google Cloud:\n\n\n- [Dataplex Universal Catalog](/dataplex/pricing)\n- [Cloud Storage](/storage/pricing)\n\n\nTo generate a cost estimate based on your projected usage,\nuse the [pricing calculator](/products/calculator). \nNew Google Cloud users might be eligible for a [free trial](/free). \n\n\u003cbr /\u003e\n\nWhen you finish the tasks that are described in this document, you can avoid\ncontinued billing by deleting the resources that you created. For more information, see\n[Clean up](#clean-up).\n\nBefore you begin\n----------------\n\n1. In the Google Cloud console, on the project selector page,\n select or create a Google Cloud project.\n\n | **Note**: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.\n\n [Go to project selector](https://console.cloud.google.com/projectselector2/home/dashboard)\n2.\n [Verify that billing is enabled for your Google Cloud project](/billing/docs/how-to/verify-billing-enabled#confirm_billing_is_enabled_on_a_project).\n\n3.\n\n\n Enable the Dataplex API.\n\n\n [Enable the API](https://console.cloud.google.com/flows/enableapi?apiid=dataplex.googleapis.com)\n4. [Create a Dataproc Metastore service](/dataproc-metastore/docs/create-service).\n\n | **Note:** You can attach each Dataproc Metastore to only one Dataplex Universal Catalog lake. Enable `gRPC` for your metastore.\n\n### Create a Cloud Storage bucket\n\nYou need a Cloud Storage bucket to store the data assets of your data\nmesh.\n\nTo create a Cloud Storage bucket, follow the instructions in\n[create a Cloud Storage bucket](/storage/docs/creating-buckets). When\ndoing so, note the following:\n\n- Name your bucket.\n- For **Location type** , choose **Region** , and select **us-central1 (Iowa)** from the menu. \n\nCreate a domain\n---------------\n\n1. In the Google Cloud console, go to the Dataplex Universal Catalog page.\n\n [Go to Dataplex Universal Catalog](https://console.cloud.google.com/dataplex/lakes)\n2. Navigate to the **Manage** view.\n\n3. Click **Create** to create a new lake, which acts as your data mesh.\n\n4. In the **Display name** field, enter `My data mesh`.\n\n | **Note:** Dataplex Universal Catalog automatically generates a lake ID.\n5. For **Region** , select `us-central1`.\n\n | **Note:** The region you select for your data mesh determines the location of the data (not including attached assets) managed by Dataplex Universal Catalog. The same region is used when Dataplex Universal Catalog creates resources in other services, but not for data contained within assets.\n6. Select the Dataproc Metastore service that you created and\n configured earlier as the associated metastore.\n\n7. Click **Create**.\n\nCreate zones in your lake\n-------------------------\n\nAfter creating a domain by creating a Dataplex Universal Catalog lake, you can host\nmanaged data contracts and individual teams within the domain by using zones.\nThere are two types of zones:\n\n- Raw zones are typically used to store data in any format from external sources\n in Cloud Storage. Raw zones are useful for data that requires further\n processing before it's ready for consumption.\n\n- Curated zones are used for structured data in Cloud Storage that must\n conform to certain file formats, and are organized in a hive-compatible\n directory layout. They are most useful for data that's ready for consumption\n and analysis.\n\nEach domain (for example, `sales`, `customers`, `products`) should have at least\na raw zone and a curated zone.\n\nAdditional zones are used to manage data contracts between teams or to provide a\nmore granular breakdown for teams within a given domain. For example, inventory\nmanagement within the product domain. Data owners are able to manage the data\nwithin their domain and access it.\n\n1. In the Google Cloud console, navigate to the Dataplex Universal Catalog\n **Manage** view.\n\n2. Click the name of the lake (`My data mesh`) you want to add a zone to.\n\n3. In the **Zones** tab, click add **Add Zone**.\n\n4. In the **Display name** field, enter `My sub domain`. Dataplex Universal Catalog\n automatically generates an ID for your zone.\n\n | **Note:** The zone name becomes the name of a BigQuery dataset. Therefore, all zones hosted in the same Google Cloud project must have a unique ID, even if they exist within different lakes.\n5. For **Type** , select **Raw zone**.\n\n6. Click **Create**.\n\nAttach assets to your zones\n---------------------------\n\nAttach data assets to your zone. A data asset, the storage resources that\ncontain your data, can be a Cloud Storage bucket or a\nBigQuery dataset. This is the final step in creating your data\nmesh architecture.\n\n1. In the Dataplex Universal Catalog **Manage** view, click the lake you created\n (`My data mesh`).\n\n2. In the **Zones** tab, click the zone (`My sub domain`) to add the asset to.\n\n3. In the **Assets** tab, click add\n **Add assets**\n\n4. Click **Add an Asset**.\n\n5. For **Type** , select **Cloud Storage bucket**.\n\n6. In the **Display name** field , enter `Data mesh asset`. Dataplex Universal Catalog\n automatically generates an asset ID for you.\n\n7. In the **Bucket** field, click **Browse**.\n\n 1. Select your bucket from the list.\n 2. Click **Select**.\n8. Click **Done** and then click **Continue**.\n\n9. Click **Continue** to accept the default **Advanced settings**.\n\n10. Click **Submit**.\n\nClean up\n--------\n\n\nTo avoid incurring charges to your Google Cloud account for the resources used in this\ntutorial, either delete the project that contains the resources, or keep the project and\ndelete the individual resources.\n\n### Delete the project\n\n| **Caution** : Deleting a project has the following effects:\n|\n| - **Everything in the project is deleted.** If you used an existing project for the tasks in this document, when you delete it, you also delete any other work you've done in the project.\n| - **Custom project IDs are lost.** When you created this project, you might have created a custom project ID that you want to use in the future. To preserve the URLs that use the project ID, such as an `appspot.com` URL, delete selected resources inside the project instead of deleting the whole project.\n|\n|\n| If you plan to explore multiple architectures, tutorials, or quickstarts, reusing projects\n| can help you avoid exceeding project quota limits.\n1. In the Google Cloud console, go to the **Manage resources** page.\n\n [Go to Manage resources](https://console.cloud.google.com/iam-admin/projects)\n2. In the project list, select the project that you want to delete, and then click **Delete**.\n3. In the dialog, type the project ID, and then click **Shut down** to delete the project.\n\n### Delete your data mesh architecture\n\n1. In the Google Cloud console, navigate to the Dataplex Universal Catalog\n **Manage** view.\n\n2. For the lake that you want to delete, click more_vert\n **View more** , and then click **Delete**.\n\n3. To confirm the action, enter `delete` and click **Delete lake**.\n\nWhat's next\n-----------\n\n- Learn about [data processing tasks](/dataplex/docs/task-templates)\n- Learn about [discovering data](/dataplex/docs/discover-data)\n- Learn about [using data quality tasks](/dataplex/docs/using-data-quality-task-templates)"]]