Créer un maillage de données


Dataplex vous permet de créer une architecture de maillage de données. Ce guide vous explique comment utiliser les fonctionnalités Dataplex, telles qu'un lac, des zones et des éléments, pour créer un maillage de données.

Un maillage de données est une approche organisationnelle et technique qui décentralise la propriété des données entre les propriétaires des données du domaine. Ces propriétaires fournissent les données sous forme de produit de manière standard et facilitent la communication entre différentes parties de l'organisation pour distribuer des ensembles de données à différents emplacements. Apprenez-en plus sur les architectures de maillage de données.

Objectifs

Dans ce guide, vous utilisez les entités Dataplex pour créer une architecture de maillage de données:

  • Créez un lac Dataplex qui servira de domaine pour votre maillage de données.
  • Ajoutez des zones à votre lac qui représenteront les équipes individuelles au sein de chaque domaine et fourniront des contrats de données gérés.
  • Associez des éléments correspondant aux données stockées dans Cloud Storage.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Une fois que vous avez terminé les tâches décrites dans ce document, vous pouvez éviter de continuer à payer des frais en supprimant les ressources que vous avez créées. Pour en savoir plus, consultez la section Effectuer un nettoyage.

Avant de commencer

  1. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  2. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  3. Activez l'API Dataplex.

    Activez l'API Dataplex.

  4. Créez un service Dataproc Metastore.

Créer un bucket Cloud Storage

Vous avez besoin d'un bucket Cloud Storage pour stocker les éléments de données de votre maillage de données.

Suivez les étapes pour créer un bucket Cloud Storage, puis:

  • Nommez votre bucket.
  • Pour le type d'emplacement, choisissez Région, puis sélectionnez us-central1 (Iowa) dans le menu déroulant.

Créer un domaine

  1. Dans la console Google Cloud, accédez à la page Dataplex:

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Cliquez sur Créer pour créer un lac qui servira de maillage de données.

  4. Dans le champ Nom à afficher, saisissez My data mesh.

  5. Pour Région, sélectionnez us-central1.

  6. Sélectionnez le service Dataproc Metastore que vous avez créé précédemment et configuré en tant que métastore associé.

  7. Cliquez sur Créer.

Créer des zones dans votre lac

Après avoir créé un domaine en créant un lac Dataplex, vous pouvez héberger des contrats de données gérés et des équipes individuelles au sein du domaine à l'aide de zones. Il existe deux types de zones:

  • Les zones brutes sont généralement utilisées pour stocker des données dans n'importe quel format à partir de sources externes dans Cloud Storage. Les zones brutes sont utiles pour les données qui nécessitent un traitement plus approfondi avant d'être prêtes à être utilisées.

  • Les zones sélectionnées sont utilisées pour les données structurées dans Cloud Storage. Elles doivent respecter certains formats de fichiers et sont organisées dans une mise en page de répertoire compatible avec Hive. Ils sont particulièrement utiles pour les données prêtes à être utilisées et analysées.

Chaque domaine (par exemple, sales, customers, products) doit au moins comporter une zone brute et une zone sélectionnée.

Des zones supplémentaires permettent de gérer les contrats de données entre les équipes ou de fournir une répartition plus précise pour les équipes d'un domaine donné. Par exemple, la gestion de l'inventaire dans le domaine du produit. Les propriétaires des données peuvent gérer les données au sein de leur domaine et y accéder.

  1. Dans Dataplex, dans la console Google Cloud, accédez à la vue Manage (Gérer).

  2. Cliquez sur le nom du lac (My data mesh) auquel vous souhaitez ajouter une zone.

  3. Dans l'onglet Zones, cliquez sur Ajouter une zone.

  4. Dans le champ Nom à afficher, saisissez My sub domain. Dataplex génère automatiquement un ID pour votre zone.

    REMARQUE: Le nom de la zone devient le nom d'un ensemble de données BigQuery. Par conséquent, toutes les zones hébergées dans le même projet Google Cloud doivent avoir un ID unique, même si elles existent dans des lacs différents.

  5. Dans le champ Type, sélectionnez Zone brute.

  6. Cliquez sur Créer.

Associer des éléments à vos zones

Associez des éléments de données à votre zone. Un élément de données, c'est-à-dire les ressources de stockage contenant vos données, peut être un bucket Cloud Storage ou un ensemble de données BigQuery. Il s'agit de la dernière étape de la création de votre architecture de maillage de données.

  1. Dans la vue Manage (Gérer) Dataplex, cliquez sur le lac que vous avez créé (My data mesh).

  2. Dans l'onglet Zones, cliquez sur la zone (My sub domain) dans laquelle vous souhaitez ajouter le composant.

  3. Dans l'onglet Éléments, cliquez sur Ajouter des éléments.

  4. Cliquez sur Ajouter un composant.

  5. Dans le champ Type, sélectionnez Bucket Cloud Storage.

  6. Dans le champ Nom à afficher , saisissez Data mesh asset. Dataplex génère automatiquement un ID d'élément pour vous.

  7. Dans le champ Bucket, cliquez sur Parcourir.

    1. Sélectionnez votre bucket dans la liste.
    2. Cliquez sur Sélectionner.
  8. Cliquez sur OK, puis sur Continuer.

  9. Cliquez sur Continuer pour accepter les paramètres avancés par défaut.

  10. Cliquez sur Envoyer pour ajouter votre bucket Cloud Storage en tant qu'élément de données à votre zone.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Supprimer le projet

  1. Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Supprimer l'architecture de votre maillage de données

  1. Dans Dataplex, dans la console Google Cloud, accédez à la vue Manage (Gérer).

  2. Pour le lac que vous souhaitez supprimer, cliquez sur Afficher plus, puis sur Supprimer.

  3. Confirmez l'action en saisissant delete, puis cliquez sur Supprimer le lac.

Étapes suivantes