Gérer les éléments de données dans un lac

Cette page explique comment ajouter, mettre à niveau et supprimer des buckets Cloud Storage et des ensembles de données BigQuery en tant qu'éléments dans des zones Dataplex existantes.

Présentation

Un élément correspond aux données stockées dans Cloud Storage ou BigQuery. Toi peuvent mapper les données stockées dans des projets Google Cloud distincts en tant qu'éléments dans une zone spécifique au sein d'un lac. Vous pouvez associer des buckets Cloud Storage existants Ensembles de données BigQuery à gérer depuis le lac.

Avant de commencer

  • Si vous ne l'avez pas déjà fait, créez un lac et une zone dans ce lac.

  • La plupart des commandes gcloud lakes nécessitent un emplacement. Vous pouvez spécifier l'emplacement à l'aide de l'indicateur --location.

Contrôle des accès

  • Pour supprimer des éléments, accordez aux rôles IAM contenant les autorisations dataplex.lakes.delete, dataplex.zones.delete ou dataplex.assets.delete. Les rôles roles/dataplex.admin et roles/dataplex.editor spécifiques à Dataplex peuvent être utilisés pour accorder ces autorisations.

  • Pour ajouter des composants, accordez les rôles IAM contenant les autorisations create à dataplex.lakes.create, dataplex.zones.create ou dataplex.assets.create. Les rôles roles/dataplex.admin et roles/dataplex.editor contiennent ces autorisations.

  • Vous pouvez également accorder une autorisation à des utilisateurs ou à des groupes à l'aide des anciens rôles roles/owner et roles/editor.

  • Vous devez autoriser le service Dataplex pour les ressources au lac Dataplex. L'autorisation est accordée automatiquement et implicitement pour les ressources du projet dans lequel le lac est créé. Pour les autres projets, autorisez explicitement le service Dataplex sur les ressources.

Pour en savoir plus, consultez la page IAM et contrôle des accès Dataplex.

Attribuer des rôles pour les buckets Cloud Storage

Pour associer un bucket Cloud Storage d'un autre projet à votre lac, vous devez accorder au compte de service Dataplex (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com, récupéré sur la page d'informations du lac dans la console) le rôle de compte de service Dataplex (roles/dataplex.serviceAgent) dans le projet contenant le bucket. Ce rôle fournit au service Dataplex le rôle d'administrateur requis au niveau du bucket afin que des autorisations puissent être définies sur le bucket lui-même.

Attribuer des rôles pour les ensembles de données BigQuery

Pour associer un ensemble de données BigQuery d'un autre projet à votre lac de données, vous devez attribuer au compte de service Dataplex le rôle d'administrateur BigQuery sur l'ensemble de données.

Considérations concernant VPC Service Controls

Dataplex ne s'oppose pas aux périmètres VPC Service Controls. Avant lorsque vous ajoutez un élément au lac, assurez-vous que le bucket ou l'ensemble de données sous-jacent se trouve au même réseau VPC Service Controls que le lac.

Pour en savoir plus, consultez la page VPC Service Controls avec Dataplex.

Ajouter un élément

Vous pouvez ajouter un bucket Cloud Storage ou un élément d'ensemble de données BigQuery en émettant une méthode d'API Dataplex lakes.zones.assets.create ou en ajoutant un bucket ou un ensemble de données sur la page de la zone de données ouverte dans un navigateur local.

En l'absence de chevauchement entre la région du lac Dataplex et l'une des régions des buckets Cloud Storage, vous ne pouvez pas ajouter le bucket à une zone de votre lac.

Pour en savoir plus sur la région un élément Cloud Storage et la manière dont Dataplex gère emplacement d'un bucket lors de la création de l'ensemble de données à publier, consultez Ressources régionales

Console

  1. Dans la console Google Cloud, ouvrez la page Dataplex :

    Ouvrir Dataplex dans la console Google Cloud

  2. Sur la page Gérer, cliquez sur le lac auquel vous souhaitez ajouter un bucket Cloud Storage ou un ensemble de données BigQuery. La page du lac s'ouvre.

    page d'informations sur le lac
  3. Dans l'onglet Zones, cliquez sur le nom de la zone de données à laquelle vous souhaitez ajouter l'élément. Page "Zone de données" pour cette zone de données s'ouvre.

  4. Dans l'onglet Éléments, cliquez sur + Ajouter des éléments. La page Ajouter des composants s'ouvre.

  5. Cliquez sur Add an Asset (Ajouter un élément).

  6. Dans le champ Type, sélectionnez Ensemble de données BigQuery ou Bucket Cloud Storage.

  7. Dans le champ Nom à afficher, saisissez le nom du nouvel élément.

  8. Dans le champ ID, saisissez un identifiant unique pour l'élément.

  9. Facultatif : saisissez une Description.

  10. Dans le champ Ensemble de données ou Bucket (selon le type de votre composant), cliquez sur Parcourir pour rechercher et sélectionner votre bucket Cloud Storage ou votre ensemble de données BigQuery.

  11. Facultatif : Si votre type d'élément est Bucket Cloud Storage et que vous souhaitez que Dataplex gère l'élément, cochez la case Passer à la gestion. Si vous choisissez cette option, vous n'avez pas besoin de mettre à niveau l'élément séparément. Cette option n'est pas disponible pour les ensembles de données BigQuery.

  12. Cliquez sur Continuer.

  13. Choisissez les autres valeurs de paramètres. Pour en savoir plus sur les paramètres de sécurité, consultez la section Sécurité du lac.

  14. Cliquez sur Envoyer pour ajouter le composant.

  15. Vérifiez que vous êtes revenu sur la page de la zone de données et que votre nouvel élément apparaît dans la liste des éléments.

REST

Suivez les instructions de l'API pour ajouter un bucket. à l'aide d'APIs Explorer.

Lorsque l'ajout réussit, la zone de données passe automatiquement à l'état actif de l'état. En cas d'échec, un rollback est effectué pour rétablir la zone de données précédente est opérationnel.

Mettre à niveau un composant de bucket Cloud Storage

Lorsque vous ajoutez un composant de type bucket Cloud Storage, Dataplex publie automatiquement des tables externes BigQuery pour les tables hébergées dans le composant.

Lorsque vous mettez à niveau un composant de bucket Cloud Storage, Dataplex supprime les tables externes associées et crée des tables BigLake. Les tables BigLake offrent une sécurité renforcée, y compris au niveau de la ligne, au niveau des colonnes et au masquage dynamique des données.

Vous pouvez mettre à niveau un élément de bucket Cloud Storage dans la console Google Cloud ou via la méthode API Dataplex Patch.

Console

  1. Dans la console Google Cloud, ouvrez la page Dataplex :

    Accéder à Dataplex

  2. Sur la page Gérer, cliquez sur le nom du lac. La page du lac s'ouvre.

  3. Dans l'onglet Zones, cliquez sur le nom de la zone de données. La page de la zone de données s'ouvre.

  4. Dans l'onglet Éléments, cliquez sur le nom de l'élément que vous souhaitez modifier. mise à niveau.

  5. Cliquez sur Passer à la gestion.

REST

Suivez les instructions de l'API pour mettre à niveau un composant de bucket à l'aide de l'explorateur Cloud.

Revenir à une version antérieure d'un élément de bucket Cloud Storage

Lorsque vous passez à une version antérieure d'un élément de bucket Cloud Storage, Dataplex supprime les composants les tables BigLake et crée dans les tables externes.

Vous pouvez revenir à une version antérieure d'un élément de bucket Cloud Storage dans la console Google Cloud. ou via la méthode API Dataplex Patch, avec le champ readAccessMode défini sur DIRECT dans ResourceSpec

Console

  1. Dans la console Google Cloud, ouvrez la page Dataplex :

    Accéder à Dataplex

  2. Sur la page Gérer, cliquez sur le nom du lac. La page du lac s'ouvre.

  3. Dans l'onglet Zones, cliquez sur le nom de la zone de données. La page de la zone de données s'ouvre.

  4. Dans l'onglet Éléments, cliquez sur le nom de l'élément que vous souhaitez mettre à niveau.

  5. Cliquez sur Repasser de l'appareil géré.

REST

Suivez les instructions de l'API pour réduire la qualité d'un composant de bucket à l'aide de l'explorateur Cloud. Assurez-vous de définir le champ readAccessMode sur DIRECT dans ResourceSpec.

Supprimer un composant

Vous pouvez supprimer un bucket Cloud Storage ou un ensemble de données BigQuery dans la console Google Cloud ou en émettant l'API Dataplex lakes.zones.assets.delete. Supprimez l'élément de la zone de données ou du lac avant de l'associer à un différent.

Les instructions suivantes montrent comment supprimer un Dataplex à l'aide de la console Google Cloud ou de l'API Dataplex.

Console

  1. Dans la console Google Cloud, ouvrez la page Dataplex :

    Ouvrez Dataplex dans le Console Google Cloud

  2. Sur la page Gérer, cliquez sur le lac à partir duquel vous souhaitez supprimer un bucket Cloud Storage ou un ensemble de données BigQuery. La page correspondante s'ouvre.

    page des détails du lac
  3. Dans l'onglet Zones, cliquez sur le nom de la zone de données à laquelle vous souhaitez attribuer supprimer le bucket Cloud Storage ou BigQuery ensemble de données. La page "Zone de données" de cette zone de données s'ouvre.

  4. Dans l'onglet Éléments, sélectionnez l'asset en cochant la case située à gauche. du nom de l'élément.

  5. Cliquez sur Supprimer l'asset pour le supprimer.

  6. Dans la boîte de dialogue, cliquez sur Supprimer pour confirmer la dissociation.

REST

Suivez les instructions de l'API pour supprimer un bucket. à l'aide de Cloud Explorer.

Étape suivante