Créer un lac Dataplex

Ce document explique comment créer un lac Dataplex. Vous pouvez créer un lac dans l'une des régions compatibles avec Dataplex.

Avant de commencer

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery, and Cloud Storage. APIs.

    Enable the APIs

Contrôle des accès

  1. Pour créer et gérer votre lac, assurez-vous d'avoir les rôles prédéfinis roles/dataplex.admin ou roles/dataplex.editor. Pour en savoir plus, consultez la section Attribuer un rôle unique.

  2. Pour associer un bucket Cloud Storage d'un autre projet à votre lac de données, attribuez au compte de service Dataplex suivant un rôle d'administrateur sur le bucket en exécutant la commande suivante:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Créer un metastore

Vous pouvez accéder aux métadonnées Dataplex à l'aide de Hive Metastore dans les requêtes Spark en associant une instance de service Dataproc Metastore à votre lac Dataplex. Vous devez disposer d'un Dataproc Metastore (version 3.1.2 ou ultérieure) compatible avec gRPC associé au lac Dataplex.

  1. Créez un service Dataproc Metastore.

  2. Configurez l'instance de service Dataproc Metastore pour qu'elle expose un point de terminaison gRPC (au lieu du point de terminaison Thrift Metastore par défaut):

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Affichez le point de terminaison gRPC:

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Créer un lac

Console

  1. Dans la console Google Cloud , accédez à Dataplex.

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Cliquez sur  Créer.

  4. Saisissez un nom à afficher.

  5. L'ID du lac est généré automatiquement. Si vous préférez, vous pouvez fournir votre propre pièce d'identité. Consultez la section Convention d'attribution de noms aux ressources.

  6. Facultatif : saisissez une Description.

  7. Spécifiez la Région dans laquelle créer l'instance.

    Pour les lacs créés dans une région donnée (par exemple, us-central1), vous pouvez associer des données monorégionales (us-central1) et multirégionales (us multi-region) en fonction des paramètres de zone.

  8. Facultatif: Ajoutez des libellés à votre lac.

  9. Facultatif: dans la section Metastore, cliquez sur le menu Service de métastore, puis sélectionnez le service que vous avez créé dans la section Avant de commencer.

  10. Cliquez sur Créer.

gcloud

Pour créer un lac, utilisez la commande gcloud alpha dataplex lakes create:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Remplacez les éléments suivants :

  • LAKE: nom du nouveau lac
  • LOCATION: fait référence à une région Google Cloud
  • k1=v1,k2=v2,k3=v3: libellés utilisés (le cas échéant)
  • METASTORE_SERVICE: service Dataproc Metastore, le cas échéant

REST

Pour créer un lac, utilisez la méthode lakes.create.

Étape suivante