Créer un lac

Ce guide vous explique comment créer un lac Dataplex à l'aide du la console Google Cloud, gcloud CLI ou la méthode API lakes.create.

Vous pouvez créer votre lac dans n'importe quelle région prendre en charge Dataplex.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

Contrôle des accès

  1. Assurez-vous de disposer des rôles prédéfinis. roles/dataplex.admin ou roles/dataplex.editor vous sont accordées afin que vous puissiez créer et gérer votre lac. Suivez la procédure décrite dans la documentation IAM attribution de rôles.

  2. Pour associer un bucket Cloud Storage d'un autre projet à votre lac, procédez comme suit : accordez au compte de service Dataplex suivant d'administrateur sur le bucket en exécutant la commande suivante:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Créer un metastore

Vous pouvez accéder aux métadonnées Dataplex à l'aide du métastore Hive dans Spark de requêtes en associant instance de service Dataproc Metastore avec votre lac Dataplex. Vous devez disposer d'un Dataproc Metastore (version 3.1.2 ou ultérieure) compatible avec gRPC associé au lac Dataplex.

  1. Créez un service Dataproc Metastore.

  2. Configurez l'instance de service Dataproc Metastore pour qu'elle expose un point de terminaison gRPC (au lieu du point de terminaison Thrift Metastore par défaut). Exécutez la requête API de mise à jour suivante:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Affichez le point de terminaison gRPC. Exécutez la commande suivante :

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Créer un lac Dataplex

Les étapes suivantes vous montrent comment créer un lac Dataplex.

Console

  1. Accédez à Dataplex dans la console Google Cloud.

    Accédez à Dataplex.

  2. Accédez à la vue Gérer.

  3. Cliquez sur  Créer.

  4. Saisissez un nom à afficher.

  5. L'ID du lac est généré automatiquement. Si vous préférez, vous pouvez fournir votre propre pièce d'identité. Consultez la section Convention d'attribution de noms aux ressources.

  6. Facultatif : saisissez une Description.

  7. Spécifiez la Région dans laquelle créer l'instance.

    Pour les lacs créés dans une région donnée (par exemple, us-central1), les deux Données régionales (us-central1) et multirégionales (us multi-region) en fonction des paramètres de la zone.

  8. Facultatif: Ajoutez des étiquettes à votre lac.

  9. (Facultatif) Dans la section Metastore, cliquez sur Service Metastore. puis sélectionnez le service que vous avez créé à l'étape Avant de commencer. .

  10. Cliquez sur Créer.

gcloud

Utilisez la commande gcloud preview dataplex lake create suivante pour créer un lac :

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Remplacez les éléments suivants :

  • LAKE: nom du nouveau lac.
  • LOCATION : fait référence à une région Google Cloud.
  • k1=v1,k2=v2,k3=v3: étiquettes utilisées (le cas échéant).
  • METASTORE_SERVICE : service Dataproc Metastore, le cas échéant.

REST

Suivez les instructions de l'API pour créer un lac à l'aide de l'explorateur d'API.

Étape suivante