Créer un maillage de données


Vous pouvez utiliser Dataplex pour créer une architecture de maillage de données. Ce guide vous explique comment utiliser les fonctionnalités Dataplex, comme un lac, des zones et des éléments, pour créer un maillage de données.

Un maillage de données est une approche organisationnelle et technique qui décentralise la propriété des données entre les propriétaires de données du domaine. Ces propriétaires fournissent les données en tant que produit de manière standard et facilitent la communication entre les différentes parties de l'organisation pour répartir les ensembles de données entre différents emplacements. En savoir plus sur les architectures de maillage de données

Objectifs

Dans ce guide, vous allez utiliser les entités Dataplex pour créer une architecture de maillage de données:

  • Créez un lac Dataplex qui servira de domaine pour votre maillage de données.
  • Ajoutez à votre lac des zones qui représenteront des équipes individuelles au sein de chaque domaine et fourniront des contrats de données gérés.
  • Associez des éléments mappés aux données stockées dans Cloud Storage.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Une fois que vous avez terminé les tâches décrites dans ce document, vous pouvez éviter de continuer à payer des frais en supprimant les ressources que vous avez créées. Pour en savoir plus, consultez la section Effectuer un nettoyage.

Avant de commencer

  1. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  2. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  3. Activer l'API Dataplex

    Activer l'API Dataplex

  4. Créez un service Dataproc Metastore.

Créer un bucket Cloud Storage

Vous avez besoin d'un bucket Cloud Storage pour stocker les éléments de données de votre maillage de données.

Suivez la procédure permettant de créer un bucket Cloud Storage.

  • Nommez votre bucket.
  • Pour Type d'emplacement, choisissez Région, puis sélectionnez us-central1 (Iowa) dans le menu déroulant.

Créer un domaine

  1. Dans la console Google Cloud, accédez à la page Dataplex:

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Cliquez sur Créer pour créer un lac qui servira de maillage de données.

  4. Dans le champ Nom à afficher, saisissez My data mesh.

  5. Pour Région, sélectionnez us-central1.

  6. Sélectionnez le service Dataproc Metastore que vous avez précédemment créé et configuré comme métastore associé.

  7. Cliquez sur Créer.

Créer des zones dans votre lac

Après avoir créé un domaine en créant un lac Dataplex, vous pouvez héberger des contrats de données gérés et des équipes individuelles au sein du domaine à l'aide de zones. Il existe deux types de zones:

  • Les zones brutes sont généralement utilisées pour stocker des données dans n'importe quel format à partir de sources externes dans Cloud Storage. Les zones brutes sont utiles pour les données qui nécessitent un traitement supplémentaire avant d'être prêtes à être utilisées.

  • Les zones sélectionnées sont utilisées pour les données structurées dans Cloud Storage, qui doivent être conformes à certains formats de fichier et organisées dans un répertoire compatible avec Hive. Ils sont particulièrement utiles pour les données prêtes à être utilisées et analysées.

Chaque domaine (par exemple, sales, customers ou products) doit comporter une zone brute et une zone sélectionnée, au minimum.

Les zones supplémentaires permettent de gérer les contrats de données entre les équipes ou de fournir une répartition plus précise aux équipes d'un domaine donné. Par exemple, la gestion de l'inventaire dans le domaine du produit. Les propriétaires de données peuvent gérer les données de leur domaine et y accéder.

  1. Dans Dataplex, dans la console Google Cloud, accédez à la vue Gérer.

  2. Cliquez sur le nom du lac (My data mesh) auquel vous souhaitez ajouter une zone.

  3. Dans l'onglet Zones, cliquez sur Add Zone (Ajouter une zone).

  4. Dans le champ Nom à afficher, saisissez My sub domain. Dataplex génère automatiquement un ID pour votre zone.

    REMARQUE: Le nom de zone devient le nom d'un ensemble de données BigQuery. Par conséquent, toutes les zones hébergées dans le même projet Google Cloud doivent posséder un ID unique, même si elles existent au sein de lacs différents.

  5. Dans le champ Type, sélectionnez Zone brute.

  6. Cliquez sur Créer.

Associer des éléments à vos zones

Associez des éléments de données à votre zone. Un élément de données, c'est-à-dire les ressources de stockage contenant vos données, peut être un bucket Cloud Storage ou un ensemble de données BigQuery. Il s'agit de la dernière étape de la création de votre architecture de maillage de données.

  1. Dans la vue Gérer de Dataplex, cliquez sur le lac que vous avez créé (My data mesh).

  2. Dans l'onglet Zones, cliquez sur la zone (My sub domain) à laquelle ajouter l'élément.

  3. Dans l'onglet Assets, cliquez sur Ajouter des assets.

  4. Cliquez sur Ajouter un asset.

  5. Dans le champ Type, sélectionnez Bucket Cloud Storage.

  6. Dans le champ Nom à afficher , saisissez Data mesh asset. Dataplex génère automatiquement un ID d'élément.

  7. Dans le champ Bucket, cliquez sur Parcourir.

    1. Sélectionnez votre bucket dans la liste.
    2. Cliquez sur Sélectionner.
  8. Cliquez sur OK, puis sur Continuer.

  9. Cliquez sur Continuer pour accepter les paramètres avancés par défaut.

  10. Cliquez sur Envoyer pour ajouter votre bucket Cloud Storage en tant qu'élément de données à votre zone.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet mais supprimez les ressources individuelles.

Supprimer le projet

  1. Dans la console Google Cloud, accédez à la page Gérer les ressources.

    Accéder à la page Gérer les ressources

  2. Dans la liste des projets, sélectionnez le projet que vous souhaitez supprimer, puis cliquez sur Supprimer.
  3. Dans la boîte de dialogue, saisissez l'ID du projet, puis cliquez sur Arrêter pour supprimer le projet.

Supprimer l'architecture de votre maillage de données

  1. Dans Dataplex, dans la console Google Cloud, accédez à la vue Gérer.

  2. Pour le lac que vous souhaitez supprimer, cliquez sur Afficher plus, puis sur Supprimer.

  3. Confirmez l'action en saisissant delete, puis cliquez sur Supprimer le lac.

Étapes suivantes