Crie um lake do Dataplex Universal Catalog

Este documento descreve como criar um lake do Dataplex Universal Catalog. Pode criar um lago em qualquer uma das regiões que suportam o catálogo universal do Dataplex.

Antes de começar

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Dataplex, Dataproc, Dataproc Metastore, BigQuery, and Cloud Storage APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Controlo de acesso

    1. Para criar e gerir o seu lake, certifique-se de que tem as funções predefinidas roles/dataplex.admin ou roles/dataplex.editor concedidas. Para mais informações, consulte o artigo conceda uma única função.

    2. Para anexar um contentor do Cloud Storage de outro projeto ao seu lake, conceda à conta de serviço do catálogo universal do Dataplex a função de administrador no contentor executando o seguinte comando:

      gcloud alpha dataplex lakes authorize \
      --project PROJECT_ID_OF_LAKE \
      --storage-bucket-resource BUCKET_NAME
      

    Crie um metastore

    Pode aceder aos metadados do Dataplex Universal Catalog através do Hive Metastore em consultas do Spark associando uma instância de serviço do Dataproc Metastore ao seu lake do Dataplex Universal Catalog. Tem de ter um Dataproc Metastore com gRPC ativado (versão 3.1.2 ou superior) associado ao lake do Dataplex Universal Catalog.

    1. Crie um serviço de Dataproc Metastore.

    2. Configure a instância de serviço do Dataproc Metastore para expor um endpoint gRPC (em vez do endpoint Thrift Metastore predefinido):

      curl -X PATCH \
      -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://metastore.googleapis.com/v1beta/projects/PROJECT_ID/locations/LOCATION/services/SERVICE_ID?updateMask=hiveMetastoreConfig.endpointProtocol" \
      -d '{"hiveMetastoreConfig": {"endpointProtocol": "GRPC"}}'
      
    3. Veja o ponto final gRPC:

      gcloud metastore services describe SERVICE_ID \
        --project PROJECT_ID \
        --location LOCATION \
        --format "value(endpointUri)"
      

    Crie um lago

    Consola

    1. Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.

      Aceda a Lagos

    2. Clique em Criar.

    3. Introduza um Nome a apresentar.

    4. O ID do lago é gerado automaticamente. Se preferir, pode indicar o seu próprio ID. Consulte a Convenção de nomenclatura de recursos.

    5. Opcional: introduza uma Descrição.

    6. Especifique a região na qual criar o lago.

      Para lagos criados numa determinada região (por exemplo, us-central1), pode anexar dados de região única (us-central1) e dados de várias regiões (us multi-region), consoante as definições de zona.

    7. Opcional: adicione etiquetas ao seu lago.

    8. Opcional: na secção Metastore, clique no menu Serviço de metastore e selecione o serviço que criou na secção Antes de começar.

    9. Clique em Criar.

    gcloud

    Para criar um lago, use o comando gcloud alpha dataplex lakes create:

    gcloud alpha dataplex lakes create LAKE \
     --location=LOCATION \
     --labels=k1=v1,k2=v2,k3=v3 \
     --metastore-service=METASTORE_SERVICE
    

    Substitua o seguinte:

    • LAKE: nome do novo lago
    • LOCATION: refere-se a uma Google Cloud região
    • k1=v1,k2=v2,k3=v3: etiquetas usadas (se aplicável)
    • METASTORE_SERVICE: o serviço de Metastore do Dataproc, se tiver sido criado

    REST

    Para criar um lago, use o método lakes.create.

    O que se segue?