Créer un maillage de données


Vous pouvez utiliser Dataplex Universal Catalog pour développer une architecture de maillage de données. Ce guide de démarrage rapide vous explique comment créer un maillage de données à l'aide des fonctionnalités de Dataplex Universal Catalog, telles que les lacs, les zones et les éléments.

Un maillage de données est une approche technique et organisationnelle qui décentralise la propriété des données parmi les propriétaires de données d'un domaine. Ces propriétaires fournissent les données en tant que produit de manière standardisée et facilitent la communication entre les différentes parties de l'organisation pour distribuer les ensembles de données aux différents emplacements. En savoir plus sur les architectures de maillage de données

Objectifs

Dans ce guide, vous allez utiliser les entités de Dataplex Universal Catalog pour créer une architecture de maillage de données :

  • Vous allez créer un lac Dataplex Universal Catalog qui servira de domaine pour votre maillage de données.
  • Vous allez ajouter des zones à votre lac qui représenteront les diverses équipes de chaque domaine et fournir des contrats de données gérés.
  • Vous allez associer des éléments faisant référence aux données stockées dans Cloud Storage.

Coûts

Dans ce document, vous utilisez les composants facturables de Google Cloudsuivants :

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût.

Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Une fois que vous avez terminé les tâches décrites dans ce document, supprimez les ressources que vous avez créées pour éviter que des frais vous soient facturés. Pour en savoir plus, consultez la section Effectuer un nettoyage.

Avant de commencer

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Verify that billing is enabled for your Google Cloud project.

  3. Enable the Dataplex API.

    Enable the API

  4. Créez un service Dataproc Metastore.

Créer un bucket Cloud Storage

Vous avez besoin d'un bucket Cloud Storage pour stocker les éléments de données de votre maillage de données.

Pour créer un bucket Cloud Storage, suivez les instructions de la page Créer un bucket Cloud Storage en tenant compte de ce qui suit :

  • Attribuez un nom au bucket.
  • Pour le type d'emplacement, sélectionnez Région, puis us-central1 (Iowa) dans le menu.

Créer un domaine

  1. Dans la console Google Cloud , accédez à la page Lacs de Dataplex Universal Catalog.

    Accéder à la page "Lacs"

  2. Cliquez sur Créer pour créer un lac qui servira de maillage de données.

  3. Dans le champ Nom à afficher, saisissez My data mesh.

  4. Pour Région, sélectionnez us-central1.

  5. Sélectionnez le service Dataproc Metastore que vous avez créé et configuré précédemment en tant que metastore associé.

  6. Cliquez sur Créer.

Créer des zones dans votre lac

Après avoir établi un domaine en créant un lac Dataplex Universal Catalog, vous pouvez ajouter des contrats de données gérés et des équipes distinctes au domaine en utilisant des zones. Il existe deux types de zones :

  • Les zones brutes sont généralement utilisées pour stocker des données issues de sources externes dans Cloud Storage, quel que soit leur format. Ces zones sont utiles pour les données qui nécessitent un traitement supplémentaire avant d'être prêtes à l'emploi.

  • Les zones organisées sont utilisées pour les données structurées dans Cloud Storage qui doivent être conformes à certains formats de fichiers et organisées dans une structure de répertoire compatible avec Hive. Ces zones sont particulièrement utiles pour les données prêtes à être utilisées et analysées.

Chaque domaine (par exemple, sales, customers, products) doit comporter au moins une zone brute et une zone organisée.

Des zones supplémentaires sont utilisées afin de gérer les contrats de données entre les équipes ou de permettre une répartition plus précise pour les équipes d'un domaine donné. Par exemple, la gestion de l'inventaire dans le domaine des produits. Les propriétaires de données peuvent gérer les données de leur domaine et y accéder.

  1. Dans la console Google Cloud , accédez à la vue Gérer de Dataplex Universal Catalog.

  2. Cliquez sur le nom du lac (My data mesh) auquel vous souhaitez ajouter une zone.

  3. Dans l'onglet Zones, cliquez sur Ajouter une zone .

  4. Dans le champ Nom à afficher, saisissez My sub domain. Dataplex Universal Catalog génère automatiquement un ID pour la zone.

  5. Pour Type, sélectionnez Zone brute.

  6. Cliquez sur Créer.

Associer des éléments à vos zones

Associez des éléments de données à votre zone. Un élément de données, c'est-à-dire les ressources de stockage qui contiennent vos données, peut être un bucket Cloud Storage ou un ensemble de données BigQuery. Il s'agit de la dernière étape pour créer votre architecture de maillage de données.

  1. Dans la vue Gérer de Dataplex Universal Catalog, cliquez sur le lac que vous avez créé (My data mesh).

  2. Dans l'onglet Zones, cliquez sur la zone à laquelle ajouter l'élément (My sub domain).

  3. Dans l'onglet Éléments, cliquez sur  Ajouter des éléments.

  4. Cliquez sur Ajouter un élément.

  5. Pour Type, sélectionnez Bucket Cloud Storage.

  6. Dans le champ Nom à afficher, saisissez Data mesh asset. Dataplex Universal Catalog génère automatiquement un ID d'élément.

  7. Dans le champ Bucket, cliquez sur Parcourir.

    1. Sélectionnez votre bucket dans la liste.
    2. Cliquez sur Sélectionner.
  8. Cliquez sur OK, puis sur Continuer.

  9. Cliquez sur Continuer pour accepter les paramètres avancés par défaut.

  10. Cliquez sur Envoyer.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Supprimer le projet

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Supprimer votre architecture de maillage de données

  1. Dans la console Google Cloud , accédez à la vue Gérer de Dataplex Universal Catalog.

  2. Pour le lac que vous souhaitez supprimer, cliquez sur  Tout afficher, puis sur Supprimer.

  3. Pour confirmer l'action, saisissez delete, puis cliquez sur Supprimer le lac de données.

Étapes suivantes