Ce document explique comment créer un lac Dataplex. Vous pouvez créer un lac dans l'une des régions compatibles avec Dataplex.
Avant de commencer
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
Contrôle des accès
Pour créer et gérer votre lac, assurez-vous d'avoir les rôles prédéfinis
roles/dataplex.admin
ouroles/dataplex.editor
. Pour en savoir plus, consultez la section Attribuer un rôle unique.Pour associer un bucket Cloud Storage d'un autre projet à votre lac de données, attribuez au compte de service Dataplex suivant un rôle d'administrateur sur le bucket en exécutant la commande suivante:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Créer un metastore
Vous pouvez accéder aux métadonnées Dataplex à l'aide de Hive Metastore dans les requêtes Spark en associant une instance de service Dataproc Metastore à votre lac Dataplex. Vous devez disposer d'un Dataproc Metastore (version 3.1.2 ou ultérieure) compatible avec gRPC associé au lac Dataplex.
Créez un service Dataproc Metastore.
Configurez l'instance de service Dataproc Metastore pour qu'elle expose un point de terminaison gRPC (au lieu du point de terminaison Thrift Metastore par défaut):
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Affichez le point de terminaison gRPC:
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Créer un lac
Console
Dans la console Google Cloud , accédez à Dataplex.
Accédez à la vue Gérer.
Cliquez sur
Créer.Saisissez un nom à afficher.
L'ID du lac est généré automatiquement. Si vous préférez, vous pouvez fournir votre propre pièce d'identité. Consultez la section Convention d'attribution de noms aux ressources.
Facultatif : saisissez une Description.
Spécifiez la Région dans laquelle créer l'instance.
Pour les lacs créés dans une région donnée (par exemple,
us-central1
), vous pouvez associer des données monorégionales (us-central1
) et multirégionales (us multi-region
) en fonction des paramètres de zone.Facultatif: Ajoutez des libellés à votre lac.
Facultatif: dans la section Metastore, cliquez sur le menu Service de métastore, puis sélectionnez le service que vous avez créé dans la section Avant de commencer.
Cliquez sur Créer.
gcloud
Pour créer un lac, utilisez la commande gcloud alpha dataplex lakes create
:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Remplacez les éléments suivants :
LAKE
: nom du nouveau lacLOCATION
: fait référence à une région Google Cloudk1=v1,k2=v2,k3=v3
: libellés utilisés (le cas échéant)METASTORE_SERVICE
: service Dataproc Metastore, le cas échéant
REST
Pour créer un lac, utilisez la méthode lakes.create.
Étape suivante
- Découvrez comment ajouter des zones à un lac.
- Découvrez comment associer des éléments à une zone.
- Découvrez comment sécuriser votre lac.
- Découvrez comment gérer votre lac.