Créer un maillage de données


Vous pouvez utiliser Dataplex pour créer une architecture de maillage de données. Ce guide vous explique comment créer un maillage de données à l'aide des fonctionnalités Dataplex, telles que les lacs, les zones et les éléments.

Un maillage de données est une approche organisationnelle et technique qui décentralise la propriété des données entre les propriétaires de données du domaine. Ces propriétaires fournissent les données en tant que produit de manière standard et facilitent la communication entre les différentes parties de l'organisation pour distribuer des ensembles de données dans différents emplacements. En savoir plus sur les architectures de maillage de données

Objectifs

Dans ce guide, vous allez utiliser les entités Dataplex pour créer une architecture de maillage de données:

  • Créez un lac Dataplex qui sert de domaine à votre maillage de données.
  • Ajoutez des zones à votre lac qui représentent des équipes individuelles dans chaque domaine et fournissent des contrats de données gérés.
  • Joignez des composants qui correspondent aux données stockées dans Cloud Storage.

Coûts

Dans ce document, vous utilisez les composants facturables suivants de Google Cloud :

Obtenez une estimation des coûts en fonction de votre utilisation prévue à l'aide du simulateur de coût. Les nouveaux utilisateurs de Google Cloud peuvent bénéficier d'un essai gratuit.

Une fois que vous avez terminé les tâches décrites dans ce document, vous pouvez éviter de continuer à payer des frais en supprimant les ressources que vous avez créées. Pour en savoir plus, consultez la section Effectuer un nettoyage.

Avant de commencer

  1. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  2. Make sure that billing is enabled for your Google Cloud project.

  3. Activez l'API Dataplex.

    Activer l'API Dataplex

  4. Créez un service Dataproc Metastore.

Créer un bucket Cloud Storage

Vous avez besoin d'un bucket Cloud Storage pour stocker les composants de données de votre réseau de données.

Pour créer un bucket Cloud Storage, suivez les instructions de la section Créer un bucket Cloud Storage. Tenez compte des points suivants:

  • Attribuez un nom à votre bucket.
  • Dans Type d'emplacement, sélectionnez Région, puis us-central1 (Iowa) dans le menu.

Créer un domaine

  1. Dans la console Google Cloud, accédez à la page Dataplex.

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Cliquez sur Créer pour créer un lac, qui sert de maillage de données.

  4. Dans le champ Nom à afficher, saisissez My data mesh.

  5. Pour Région, sélectionnez us-central1.

  6. Sélectionnez le service Dataproc Metastore que vous avez créé et configuré précédemment comme métastore associé.

  7. Cliquez sur Créer.

Créer des zones dans votre lac

Une fois que vous avez créé un domaine en créant un lac Dataplex, vous pouvez héberger des contrats de données gérés et des équipes individuelles dans le domaine à l'aide de zones. Il existe deux types de zones :

  • Les zones brutes sont généralement utilisées pour stocker des données dans n'importe quel format à partir de sources externes dans Cloud Storage. Les zones brutes sont utiles pour les données qui nécessitent un traitement supplémentaire avant d'être prêtes à être utilisées.

  • Les zones sélectionnées sont utilisées pour les données structurées dans Cloud Storage qui doivent être conformes à certains formats de fichiers et sont organisées dans une structure de répertoires compatible avec Hive. Elles sont particulièrement utiles pour les données prêtes à être consommées et analysées.

Chaque domaine (par exemple, sales, customers, products) doit comporter au moins une zone brute et une zone organisée.

Les zones supplémentaires permettent de gérer les contrats de données entre les équipes ou de fournir une répartition plus détaillée pour les équipes d'un domaine donné. Par exemple, la gestion de l'inventaire dans le domaine des produits. Les propriétaires de données peuvent gérer les données de leur domaine et y accéder.

  1. Dans la console Google Cloud, accédez à la vue Gérer de Dataplex.

  2. Cliquez sur le nom du lac (My data mesh) auquel vous souhaitez ajouter une zone.

  3. Dans l'onglet Zones, cliquez sur  Ajouter une zone.

  4. Dans le champ Nom à afficher, saisissez My sub domain. Dataplex génère automatiquement un ID pour votre zone.

  5. Pour Type, sélectionnez Zone brute.

  6. Cliquez sur Créer.

Associer des composants à vos zones

Associez des éléments de données à votre zone. Un composant de données, les ressources de stockage qui contiennent vos données, peut être un bucket Cloud Storage ou un ensemble de données BigQuery. Il s'agit de la dernière étape de la création de votre architecture de réseau maillé de données.

  1. Dans la vue Gérer de Dataplex, cliquez sur le lac que vous avez créé (My data mesh).

  2. Dans l'onglet Zones, cliquez sur la zone (My sub domain) à laquelle ajouter l'élément.

  3. Dans l'onglet Éléments, cliquez sur  Ajouter des éléments.

  4. Cliquez sur Ajouter un élément.

  5. Dans Type, sélectionnez Bucket Cloud Storage.

  6. Dans le champ Nom à afficher , saisissez Data mesh asset. Dataplex génère automatiquement un ID d'élément pour vous.

  7. Dans le champ Bucket, cliquez sur Parcourir.

    1. Sélectionnez votre bucket dans la liste.
    2. Cliquez sur Sélectionner.
  8. Cliquez sur OK, puis sur Continuer.

  9. Cliquez sur Continuer pour accepter les paramètres avancés par défaut.

  10. Cliquez sur Envoyer.

Effectuer un nettoyage

Pour éviter que les ressources utilisées lors de ce tutoriel soient facturées sur votre compte Google Cloud, supprimez le projet contenant les ressources, ou conservez le projet et supprimez les ressources individuelles.

Supprimer le projet

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

Supprimer votre architecture de réseau maillé de données

  1. Dans la console Google Cloud, accédez à la vue Gérer de Dataplex.

  2. Pour le lac que vous souhaitez supprimer, cliquez sur Afficher plus, puis sur Supprimer.

  3. Pour confirmer l'action, saisissez delete, puis cliquez sur Supprimer le lac.

Étape suivante