Ce guide explique comment créer un lac Dataplex à l'aide de la console Google Cloud, de gcloud CLI ou de la méthode API lakes.create
.
Vous pouvez créer votre lac dans l'une des régions compatibles avec Dataplex.
Avant de commencer
- Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
-
Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery et Cloud Storage .
-
Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.
-
Vérifiez que la facturation est activée pour votre projet Google Cloud.
-
Activer les API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery et Cloud Storage .
Contrôle des accès
Assurez-vous que vous disposez des rôles prédéfinis
roles/dataplex.admin
ouroles/dataplex.editor
afin de pouvoir créer et gérer votre lac. Suivez la procédure décrite dans la documentation IAM pour attribuer des rôles.Pour associer à votre lac un bucket Cloud Storage provenant d'un autre projet, accordez au compte de service Dataplex suivant le rôle d'administrateur sur le bucket en exécutant la commande suivante:
gcloud alpha dataplex lakes authorize \ --project PROJECT_ID_OF_LAKE \ --storage-bucket-resource BUCKET_NAME
Créer un métastore
Vous pouvez accéder aux métadonnées Dataplex à l'aide de Hive Metastore dans des requêtes Spark en associant une instance de service Dataproc Metastore à votre lac Dataplex. Vous devez associer un Dataproc Metastore compatible avec gRPC (version 3.1.2 ou ultérieure) au lac Dataplex.
Créez un service Dataproc Metastore.
Configurez l'instance de service Dataproc Metastore pour exposer un point de terminaison gRPC (au lieu du point de terminaison Thrift Metastore par défaut). Exécutez la requête API de mise à jour suivante:
curl -X PATCH \ -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "Content-Type: application/json" \ "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \ -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
Affichez le point de terminaison gRPC. Exécutez la commande suivante :
gcloud metastore services describe SERVICE_ID \ --project PROJECT_ID \ --location LOCATION \ --format "value(endpointUri)"
Créer un lac Dataplex
Les étapes suivantes vous expliquent comment créer un lac Dataplex.
Console
Accédez à Dataplex dans la console Google Cloud.
Accédez à Dataplex.
Accédez à la vue Gérer.
Cliquez sur
Créer.Saisissez un nom à afficher.
L'ID de lac est généré automatiquement. Si vous préférez, vous pouvez fournir votre propre ID. Consultez la Convention pour l'attribution des noms de ressources.
Facultatif : saisissez une Description.
Spécifiez la Région dans laquelle créer l'instance.
Pour les lacs créés dans une région donnée (par exemple,
us-central1
), les données multirégionales (us-central1
) et multirégionales (us multi-region
) peuvent être associées, en fonction des paramètres de zone.(Facultatif) Ajoutez des libellés à votre lac.
Facultatif: Dans la section Metastore, cliquez sur la liste déroulante Service Metastore, puis sélectionnez le service que vous avez créé dans la section Avant de commencer.
Cliquez sur Créer.
gcloud
Exécutez la commande gcloud preview dataplex lake create
suivante pour créer un lac:
gcloud alpha dataplex lakes create LAKE \ --location=LOCATION \ --labels=k1=v1,k2=v2,k3=v3 \ --metastore-service=METASTORE_SERVICE
Remplacez les éléments suivants :
LAKE
: nom du nouveau lac.LOCATION
: fait référence à une région Google Cloud.k1=v1,k2=v2,k3=v3
: libellés utilisés (le cas échéant).METASTORE_SERVICE
: service Dataproc Metastore, le cas échéant.
REST
Suivez les instructions de l'API pour créer un lac à l'aide d'APIs Explorer.
Étape suivante
- Découvrez comment organiser vos données en lacs et en zones.
- Ajoutez des zones à votre lac.
- Associez des éléments à vos zones.
- Découvrez comment sécuriser votre lac.
- Découvrez comment gérer votre lac.