Ce guide vous explique comment créer un lac Dataplex à l'aide du
la console Google Cloud, gcloud CLI ou la méthode API lakes.create
.
Vous pouvez créer votre lac dans n'importe quelle région prendre en charge Dataplex.
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.
Contrôle des accès
Assurez-vous de disposer des rôles prédéfinis.
roles/dataplex.admin
ouroles/dataplex.editor
vous sont accordées afin que vous puissiez créer et gérer votre lac. Suivez la procédure décrite dans la documentation IAM attribution de rôles.Pour associer un bucket Cloud Storage d'un autre projet à votre lac, procédez comme suit : accordez au compte de service Dataplex suivant d'administrateur sur le bucket en exécutant la commande suivante:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Créer un metastore
Vous pouvez accéder aux métadonnées Dataplex à l'aide du métastore Hive dans Spark de requêtes en associant instance de service Dataproc Metastore avec votre lac Dataplex. Vous devez disposer d'un Dataproc Metastore (version 3.1.2 ou ultérieure) compatible avec gRPC associé au lac Dataplex.
Créez un service Dataproc Metastore.
Configurez l'instance de service Dataproc Metastore pour qu'elle expose un point de terminaison gRPC (au lieu du point de terminaison Thrift Metastore par défaut). Exécutez la requête API de mise à jour suivante:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Affichez le point de terminaison gRPC. Exécutez la commande suivante :
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Créer un lac Dataplex
Les étapes suivantes vous montrent comment créer un lac Dataplex.
Console
Accédez à Dataplex dans la console Google Cloud.
Accédez à Dataplex.
Accédez à la vue Gérer.
Cliquez sur
Créer.Saisissez un nom à afficher.
L'ID du lac est généré automatiquement. Si vous préférez, vous pouvez fournir votre propre pièce d'identité. Consultez la section Convention d'attribution de noms aux ressources.
Facultatif : saisissez une Description.
Spécifiez la Région dans laquelle créer l'instance.
Pour les lacs créés dans une région donnée (par exemple,
us-central1
), les deux Données régionales (us-central1
) et multirégionales (us multi-region
) en fonction des paramètres de la zone.Facultatif: Ajoutez des étiquettes à votre lac.
(Facultatif) Dans la section Metastore, cliquez sur Service Metastore. puis sélectionnez le service que vous avez créé à l'étape Avant de commencer. .
Cliquez sur Créer.
gcloud
Utilisez la commande gcloud preview dataplex lake create
suivante pour créer un lac :
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Remplacez les éléments suivants :
LAKE
: nom du nouveau lac.LOCATION
: fait référence à une région Google Cloud.k1=v1,k2=v2,k3=v3
: étiquettes utilisées (le cas échéant).METASTORE_SERVICE
: service Dataproc Metastore, le cas échéant.
REST
Suivez les instructions de l'API pour créer un lac à l'aide de l'explorateur d'API.
Étape suivante
- Découvrez comment organiser vos données en lacs et en zones.
- Ajoutez des zones à votre lac.
- Associez des éléments à vos zones.
- Découvrez comment sécuriser votre lac.
- Découvrez comment gérer votre lac de données.