Créer un lac

Ce guide explique comment créer un lac Dataplex à l'aide de la console Google Cloud, de gcloud CLI ou de la méthode API lakes.create.

Vous pouvez créer votre lac dans n'importe quelle région compatible avec Dataplex.

Avant de commencer

  1. Connectez-vous à votre compte Google Cloud. Si vous débutez sur Google Cloud, créez un compte pour évaluer les performances de nos produits en conditions réelles. Les nouveaux clients bénéficient également de 300 $ de crédits gratuits pour exécuter, tester et déployer des charges de travail.
  2. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  3. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  4. Activer les API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery et Cloud Storage. .

    Activer les API

  5. Dans Google Cloud Console, sur la page de sélection du projet, sélectionnez ou créez un projet Google Cloud.

    Accéder au sélecteur de projet

  6. Vérifiez que la facturation est activée pour votre projet Google Cloud.

  7. Activer les API Dataplex, Dataproc, Dataproc Metastore, Data Catalog, BigQuery et Cloud Storage. .

    Activer les API

Contrôle des accès

  1. Assurez-vous que les rôles prédéfinis roles/dataplex.admin ou roles/dataplex.editor vous sont attribués pour pouvoir créer et gérer votre lac. Suivez les étapes de la documentation IAM pour attribuer des rôles.

  2. Pour associer un bucket Cloud Storage d'un autre projet à votre lac, exécutez la commande suivante pour attribuer un rôle d'administrateur au compte de service Dataplex suivant:

    gcloud alpha dataplex lakes authorize \
    --project PROJECT_ID_OF_LAKE \
    --storage-bucket-resource BUCKET_NAME
    

Créer un métastore

Vous pouvez accéder aux métadonnées Dataplex à l'aide de Hive Metastore dans les requêtes Spark en associant une instance de service Dataproc Metastore à votre lac Dataplex. Vous devez disposer d'un Dataproc Metastore compatible avec gRPC (version 3.1.2 ou ultérieure) associé au lac Dataplex.

  1. Créez un service Dataproc Metastore.

  2. Configurez l'instance de service Dataproc Metastore pour exposer un point de terminaison gRPC (au lieu du point de terminaison Thrift Metastore par défaut). Exécutez la requête de mise à jour API suivante:

    curl -X PATCH \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json" \
    "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
    -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
    
  3. Affichez le point de terminaison gRPC. Exécutez la commande ci-dessous.

    gcloud metastore services describe SERVICE_ID \
      --project PROJECT_ID \
      --location LOCATION \
      --format "value(endpointUri)"
    

Créer un lac Dataplex

Les étapes suivantes vous expliquent comment créer un lac Dataplex.

Console

  1. Accédez à Dataplex dans la console Google Cloud.

    Accéder à Dataplex

  2. Accédez à la vue Gérer.

  3. Cliquez sur  Créer.

  4. Saisissez un nom à afficher.

  5. L'ID du lac est généré automatiquement pour vous. Si vous préférez, vous pouvez fournir votre propre ID. Consultez la convention d'attribution de noms aux ressources.

  6. Facultatif : saisissez une Description.

  7. Spécifiez la Région dans laquelle créer l'instance.

    Pour les lacs créés dans une région donnée (par exemple, us-central1), les données d'une seule région (us-central1) et les données multirégionales (us multi-region) peuvent être associées en fonction des paramètres de la zone.

  8. Facultatif: ajoutez des étiquettes à votre lac.

  9. Facultatif: Dans la section Metastore, cliquez sur la liste déroulante Service Metastore, puis sélectionnez le service que vous avez créé dans la section Avant de commencer.

  10. Cliquez sur Créer.

gcloud

Exécutez la commande gcloud preview dataplex lake create suivante pour créer un lac:

gcloud alpha dataplex lakes create LAKE \
 --location=LOCATION \
 --labels=k1=v1,k2=v2,k3=v3 \
 --metastore-service=METASTORE_SERVICE

Remplacez les éléments suivants :

  • LAKE: nom du nouveau lac.
  • LOCATION : fait référence à une région Google Cloud.
  • k1=v1,k2=v2,k3=v3: libellés utilisés (le cas échéant).
  • METASTORE_SERVICE: service Dataproc Metastore, le cas échéant.

REST

Suivez les instructions de l'API pour créer un lac à l'aide d'APIs Explorer.

Étape suivante