Cette page explique comment ajouter, mettre à niveau et supprimer des buckets Cloud Storage et des ensembles de données BigQuery en tant qu'éléments dans les zones Dataplex existantes.
Présentation
Un élément correspond à des données stockées dans Cloud Storage ou BigQuery. Vous pouvez mapper les données stockées dans des projets Google Cloud distincts en tant qu'éléments dans une seule zone d'un lac. Vous pouvez associer des buckets Cloud Storage ou des ensembles de données BigQuery existants à gérer depuis le lac.
Avant de commencer
Si vous ne l'avez pas déjà fait, créez un lac et une zone dans ce lac.
La plupart des commandes
gcloud lakes
nécessitent un emplacement. Vous pouvez spécifier l'emplacement à l'aide de l'option--location
.
Contrôle des accès
Pour supprimer des éléments, accordez les rôles IAM contenant les autorisations IAM
dataplex.lakes.delete
,dataplex.zones.delete
oudataplex.assets.delete
. Les rôlesroles/dataplex.admin
etroles/dataplex.editor
spécifiques à Dataplex peuvent être utilisés pour accorder ces autorisations.Pour ajouter des éléments, accordez les rôles IAM contenant les autorisations
create
(dataplex.lakes.create
,dataplex.zones.create
oudataplex.assets.create
). Les rôlesroles/dataplex.admin
etroles/dataplex.editor
contiennent ces autorisations.Vous pouvez également accorder des autorisations à des utilisateurs ou à des groupes à l'aide des anciens rôles
roles/owner
etroles/editor
.Vous devez autoriser le service Dataplex sur les ressources associées au lac Dataplex. L'autorisation est automatiquement et implicitement accordée pour les ressources du projet dans lequel le lac est créé. Pour les autres projets, autorisez explicitement le service Dataplex sur les ressources.
Pour en savoir plus, consultez la section IAM et contrôle des accès Dataplex.
Attribuer des rôles aux buckets Cloud Storage
Pour associer un bucket Cloud Storage d'un autre projet à votre lac, vous devez attribuer au compte de service Dataplex (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
, récupéré sur la page des détails du lac de la console) le rôle de compte de service Dataplex (roles/dataplex.serviceAgent
) dans le projet contenant le bucket. Ce rôle attribue au service Dataplex le rôle d'administrateur préalable sur le bucket, ce qui lui permet de définir des autorisations sur le bucket lui-même.
Attribuer des rôles pour les ensembles de données BigQuery
Pour associer un ensemble de données BigQuery d'un autre projet à votre lac, vous devez attribuer au compte de service Dataplex le rôle d'administrateur BigQuery sur l'ensemble de données.
Remarques sur VPC Service Controls
Dataplex n'enfreint pas les périmètres VPC Service Controls. Avant d'ajouter un élément au lac, assurez-vous que le bucket ou l'ensemble de données sous-jacent se trouve sur le même réseau VPC Service Controls que le lac.
Pour en savoir plus, consultez la page VPC Service Controls avec Dataplex.
Ajouter un élément
Vous pouvez ajouter un bucket Cloud Storage ou un élément d'ensemble de données BigQuery en émettant une méthode API Dataplex lakes.zones.assets.create
, ou en ajoutant un bucket ou un ensemble de données sur la page "Zone de données" ouverte dans un navigateur local.
S'il n'y a pas de chevauchement entre la région du lac Dataplex et l'une des régions des buckets Cloud Storage, vous ne pouvez pas ajouter le bucket à une zone de votre lac.
Pour en savoir plus sur l'emplacement régional d'un élément Cloud Storage et sur la manière dont Dataplex gère l'emplacement d'un bucket lors de la création de l'ensemble de données publié, consultez la page Ressources régionales.
Console
Dans la console Google Cloud, ouvrez la page Dataplex:
Sur la page Gérer, cliquez sur le lac auquel vous souhaitez ajouter un bucket Cloud Storage ou un ensemble de données BigQuery. La page du lac s'ouvre.
Dans l'onglet Zones, cliquez sur le nom de la zone de données à laquelle vous souhaitez ajouter l'élément. La page "Zone de données" s'ouvre pour cette zone de données.
Dans l'onglet Assets, cliquez sur + Ajouter des composants. La page Ajouter des éléments s'ouvre.
Cliquez sur Ajouter un composant.
Dans le champ Type, sélectionnez Ensemble de données BigQuery ou Bucket Cloud Storage.
Dans le champ Nom à afficher, saisissez le nom du nouvel élément.
Dans le champ ID, saisissez un identifiant unique pour l'élément.
Facultatif : saisissez une Description.
Dans le champ Ensemble de données ou Bucket (en fonction du type d'élément), cliquez sur Parcourir pour rechercher et sélectionner votre bucket Cloud Storage ou votre ensemble de données BigQuery.
Facultatif: si votre type d'élément est Bucket Cloud Storage et que vous souhaitez que Dataplex le gère, cochez la case Passer à un bucket géré. Si vous choisissez cette option, vous n'avez pas besoin de mettre à niveau l'élément séparément. Cette option n'est pas disponible pour les ensembles de données BigQuery.
Cliquez sur Continuer.
Choisissez les autres valeurs de paramètres. Pour en savoir plus sur les paramètres de sécurité, consultez la section Lake security.
Cliquez sur Envoyer pour ajouter le composant.
Vérifiez que vous êtes revenu à la page de la zone de données et que votre nouvel élément apparaît dans la liste des éléments.
REST
Suivez les instructions de l'API pour ajouter un bucket à l'aide d'APIs Explorer.
Lorsque l'ajout réussit, la zone de données passe automatiquement à l'état actif. En cas d'échec, la zone de données est restaurée à son état opérationnel précédent.
Mettre à niveau un élément de bucket Cloud Storage
Lorsque vous ajoutez un élément de type bucket Cloud Storage, Dataplex publie automatiquement des tables externes BigQuery pour les tables hébergées dans l'élément.
Lorsque vous mettez à niveau un élément de bucket Cloud Storage, Dataplex supprime les tables externes associées et crée des tables BigLake. Les tables BigLake offrent une sécurité plus précise, avec un masquage des données dynamique et au niveau des lignes et des colonnes.
Vous pouvez mettre à niveau un élément de bucket Cloud Storage dans la console Google Cloud ou en émettant la méthode Patch de l'API Dataplex.
Console
Dans la console Google Cloud, ouvrez la page Dataplex:
Sur la page Gérer, cliquez sur le nom du lac. La page du lac s'ouvre.
Dans l'onglet Zones, cliquez sur le nom de la zone de données. La page des zones de données s'ouvre.
Dans l'onglet Composants, cliquez sur le nom de celui que vous souhaitez mettre à niveau.
Cliquez sur Passer à un compte géré.
REST
Suivez les instructions de l'API pour mettre à niveau un élément de bucket à l'aide de Cloud Explorer.
Retourner à une version antérieure d'un élément de bucket Cloud Storage
Lorsque vous passez à une version antérieure d'un élément de bucket Cloud Storage, Dataplex supprime les tables BigLake associées et crée des tables externes.
Vous pouvez revenir à une version antérieure d'un élément de bucket Cloud Storage dans la console Google Cloud ou en émettant la méthode Patch de l'API Dataplex, avec le champ readAccessMode
défini sur DIRECT
dans ResourceSpec
.
Console
Dans la console Google Cloud, ouvrez la page Dataplex:
Sur la page Gérer, cliquez sur le nom du lac. La page du lac s'ouvre.
Dans l'onglet Zones, cliquez sur le nom de la zone de données. La page des zones de données s'ouvre.
Dans l'onglet Composants, cliquez sur le nom de celui que vous souhaitez mettre à niveau.
Cliquez sur Revenir à une version antérieure du service géré.
REST
Suivez les instructions de l'API pour rétrograder un élément de bucket à l'aide de Cloud Explorer. Veillez à définir le champ readAccessMode
sur DIRECT
dans ResourceSpec
.
Supprimer un composant
Vous pouvez supprimer un bucket Cloud Storage ou un élément d'ensemble de données BigQuery dans la console Google Cloud ou en émettant la méthode lakes.zones.assets.delete
de l'API Dataplex.
Supprimez l'élément de la zone ou du lac de données avant de l'associer à un autre.
Les instructions suivantes expliquent comment supprimer un élément Dataplex à l'aide de la console Google Cloud ou de l'API Dataplex.
Console
Dans la console Google Cloud, ouvrez la page Dataplex:
Sur la page Gérer, cliquez sur le lac dans lequel vous souhaitez supprimer un bucket Cloud Storage ou un ensemble de données BigQuery. La page du lac correspondant s'ouvre.
Dans l'onglet Zones, cliquez sur le nom de la zone de données dans laquelle vous souhaitez supprimer le bucket Cloud Storage ou l'ensemble de données BigQuery. La page "Zone de données" s'affiche pour cette zone.
Dans l'onglet Éléments, sélectionnez un élément en cochant la case située à gauche de son nom.
Cliquez sur Supprimer l'élément pour le supprimer.
Dans la boîte de dialogue, cliquez sur Supprimer pour confirmer la dissociation.
REST
Suivez les instructions de l'API pour supprimer un bucket à l'aide de Cloud Explorer.
Étape suivante
- En savoir plus sur la découverte des données
- En savoir plus sur la création d'un lac
- En savoir plus sur Cloud Audit Logging