Ce guide vous explique comment créer un lac Dataplex à l'aide du
la console Google Cloud, gcloud CLI ou la méthode API lakes.create
.
Vous pouvez créer votre lac dans n'importe quelle région prendre en charge Dataplex.
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. .
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. .
Contrôle des accès
Assurez-vous de disposer des rôles prédéfinis.
roles/dataplex.admin
ouroles/dataplex.editor
vous sont accordées afin que vous puissiez créer et gérer votre lac. Suivez la procédure décrite dans la documentation IAM attribution de rôles.Pour associer un bucket Cloud Storage d'un autre projet à votre lac, procédez comme suit : accordez au compte de service Dataplex suivant d'administrateur sur le bucket en exécutant la commande suivante:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Créer un métastore
Vous pouvez accéder aux métadonnées Dataplex à l'aide du métastore Hive dans Spark de requêtes en associant instance de service Dataproc Metastore avec votre lac Dataplex. Vous devez disposer d'un service gRPC Dataproc Metastore (version 3.1.2 ou ultérieure) associé au lac Dataplex.
Créez un service Dataproc Metastore.
Configurez l'instance de service Dataproc Metastore pour exposer un point de terminaison gRPC (au lieu du point de terminaison Thrift Metastore par défaut). Exécutez la requête API de mise à jour suivante:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Affichez le point de terminaison gRPC. Exécutez la commande suivante :
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Créer un lac Dataplex
Les étapes suivantes vous expliquent comment créer un lac Dataplex.
Console
Accédez à Dataplex dans la console Google Cloud.
Accéder à Dataplex
Accédez à la vue Gérer.
Cliquez sur
Créer.Saisissez un nom dans le champ Nom à afficher.
L'ID du lac est généré automatiquement. Si vous préférez, peut fournir votre propre pièce d'identité. Consultez la section Convention d'attribution de noms aux ressources.
Facultatif : saisissez une Description.
Spécifiez la Région dans laquelle créer l'instance.
Pour les lacs créés dans une région donnée (par exemple,
us-central1
), les deux Données régionales (us-central1
) et multirégionales (us multi-region
) en fonction des paramètres de la zone.Facultatif: Ajoutez des étiquettes à votre lac.
(Facultatif) Dans la section Metastore, cliquez sur Service Metastore. puis sélectionnez le service que vous avez créé à l'étape Avant de commencer. .
Cliquez sur Créer.
gcloud
Utilisez la commande gcloud preview dataplex lake create
suivante pour créer un
lac de données:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Remplacez les éléments suivants :
LAKE
: nom du nouveau lac.LOCATION
: fait référence à une région Google Cloud.k1=v1,k2=v2,k3=v3
: étiquettes utilisées (le cas échéant).METASTORE_SERVICE
: service Dataproc Metastore, le cas échéant.
REST
Suivez les instructions de l'API pour créer un lac. à l'aide d'APIs Explorer.
Étape suivante
- Découvrez comment organiser vos données
en lacs et en zones.
- Ajoutez des zones à votre lac.
- Associez des éléments à vos zones.
- Découvrez comment sécuriser votre lac.
- Découvrez comment gérer votre lac de données.