Gerenciar recursos de dados em um lake

Nesta página, explicamos como adicionar, fazer upgrade e remover buckets do Cloud Storage e conjuntos de dados do BigQuery como recursos em zonas atuais do Dataplex.

Visão geral

Um recurso é mapeado para os dados armazenados no Cloud Storage ou no BigQuery. É possível mapear dados armazenados em projetos separados do Google Cloud como recursos em uma única zona dentro de um lake. É possível anexar buckets do Cloud Storage ou conjuntos de dados do BigQuery para serem gerenciados dentro do lake.

Antes de começar

  • Crie um lake e uma zona nele, caso ainda não tenha feito isso.

  • A maioria dos comandos gcloud lakes requer um local. É possível especificar o local usando a sinalização --location.

Controle de acesso

  • Para remover recursos, conceda os papéis do IAM que contêm as permissões dataplex.lakes.delete, dataplex.zones.delete ou dataplex.assets.delete do IAM. Os papéis roles/dataplex.admin e roles/dataplex.editor específicos do Dataplex podem ser usados para conceder essas permissões.

  • Para adicionar recursos, conceda os papéis do IAM que contêm as permissões create - dataplex.lakes.create, dataplex.zones.create ou dataplex.assets.create. Os papéis roles/dataplex.admin e roles/dataplex.editor contêm essas permissões.

  • Também é possível dar permissão a usuários ou grupos usando os papéis legados roles/owner e roles/editor.

  • É preciso autorizar o serviço do Dataplex nos recursos que estão sendo anexados ao lake do Dataplex. A autorização é concedida de maneira automática e implícita para os recursos no projeto em que o lake é criado. Para outros projetos, autorize o serviço Dataplex em recursos explicitamente.

Para mais informações, consulte IAM e controle de acesso do Dataplex.

Conceder papéis para buckets do Cloud Storage

Para anexar um bucket do Cloud Storage de outro projeto ao seu lake, conceda à conta de serviço do Dataplex (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com, recuperado da página de detalhes do lake no console) o papel da conta de serviço do Dataplex (roles/dataplex.serviceAgent) no projeto que contém o bucket. Esse papel fornece ao serviço do Dataplex o papel de nível de administrador como pré-requisito no bucket para que as permissões possam ser definidas no próprio bucket.

Conceder papéis para conjuntos de dados do BigQuery

Para anexar um conjunto de dados do BigQuery de outro projeto ao seu lake, é necessário conceder à conta de serviço do Dataplex o papel de administrador do BigQuery no conjunto de dados.

Considerações sobre o VPC Service Controls

O Dataplex não viola os perímetros do VPC Service Controls. Antes de adicionar um recurso ao lake, verifique se o bucket ou o conjunto de dados subjacente está na mesma rede do VPC Service Controls que o lake.

Para mais informações, consulte VPC Service Controls com o Dataplex.

Adicionar um recurso

É possível adicionar um bucket do Cloud Storage ou um recurso de conjunto de dados do BigQuery emitindo um método lakes.zones.assets.create da API Dataplex ou adicionando um bucket ou conjunto de dados na página "Zona de dados" aberta em um navegador local.

Se não houver sobreposição entre a região do lake do Dataplex e uma das regiões dos buckets do Cloud Storage, não será possível adicionar o bucket a uma zona no lake.

Para saber mais sobre a localização regional de um recurso do Cloud Storage e como o Dataplex processa o local de um bucket ao criar o conjunto de dados de publicação, consulte Recursos regionais.

Console

  1. No console do Google Cloud, abra a página do Dataplex:

    Abra o Dataplex no Console do Google Cloud

  2. Na página Gerenciar, clique no lake em que você quer adicionar um bucket do Cloud Storage ou conjunto de dados do BigQuery. A página do lake será aberta.

    página de detalhes do lake
  3. Na guia Zonas, clique no nome da zona de dados à qual você quer adicionar o recurso. A página "Zona de dados" dessa zona é aberta.

  4. Na guia Recursos, clique em + Adicionar recursos. A página Adicionar recursos é aberta.

  5. Clique em Add an Asset.

  6. No campo Tipo, selecione Conjunto de dados do BigQuery ou Bucket do Cloud Storage.

  7. No campo Nome de exibição, digite um nome para o novo recurso.

  8. No campo Código, insira um ID exclusivo para o recurso.

  9. Opcional: digite uma Descrição.

  10. No campo Conjunto de dados ou Bucket, de acordo com o tipo do recurso, clique em Procurar para encontrar e selecionar o bucket do Cloud Storage ou o conjunto de dados do BigQuery.

  11. Opcional: se o tipo de recurso for bucket do Cloud Storage e você quiser que o Dataplex faça o gerenciamento, marque a caixa de seleção Fazer upgrade para gerenciado. Se você escolher essa opção, não precisará fazer upgrade do recurso separadamente. Essa opção não está disponível para conjuntos de dados do BigQuery.

  12. Clique em Continuar.

  13. Escolha o restante dos valores de parâmetro. Para mais informações sobre configurações de segurança, consulte Segurança do lake.

  14. Clique em Enviar para adicionar o recurso.

  15. Verifique se você retornou à página da zona de dados e se o novo recurso aparece na lista de recursos.

REST

Siga as instruções da API para adicionar um bucket usando o APIs Explorer.

Quando a adição é bem-sucedida, a zona de dados entra automaticamente no estado ativo. Em caso de falha, a zona de dados é revertida para o estado íntegro anterior.

Fazer upgrade de um recurso de bucket do Cloud Storage

Quando você adiciona um recurso do tipo bucket do Cloud Storage, o Dataplex publica automaticamente tabelas externas do BigQuery para as tabelas hospedadas no recurso.

Quando você faz upgrade de um recurso de bucket do Cloud Storage, o Dataplex remove as tabelas externas anexadas e cria tabelas do BigLake. As tabelas do BigLake são compatíveis com uma segurança mais refinada, incluindo mascaramento de dados dinâmicos, de linha e de coluna.

É possível fazer upgrade de um recurso de bucket do Cloud Storage no console do Google Cloud ou emitir o método Patch da API Dataplex.

Console

  1. No console do Google Cloud, abra a página do Dataplex:

    Acessar o Dataplex

  2. Na página Gerenciar, clique no nome do lake. A página do lake será aberta.

  3. Na guia Zonas, clique no nome da zona de dados. A página da zona de dados será aberta.

  4. Na guia Recursos, clique no nome do recurso que você quer fazer upgrade.

  5. Clique em Fazer upgrade para gerenciado.

REST

Siga as instruções da API para fazer upgrade de um recurso de bucket usando o Cloud Explorer.

Fazer downgrade de um recurso de bucket do Cloud Storage

Quando você faz downgrade de um recurso de bucket do Cloud Storage, o Dataplex remove as tabelas do BigLake anexadas e cria tabelas externas.

É possível fazer downgrade de um recurso de bucket do Cloud Storage no console do Google Cloud ou emitir o método Patch da API Dataplex, com o campo readAccessMode definido como DIRECT em ResourceSpec.

Console

  1. No console do Google Cloud, abra a página do Dataplex:

    Acessar o Dataplex

  2. Na página Gerenciar, clique no nome do lake. A página do lake será aberta.

  3. Na guia Zonas, clique no nome da zona de dados. A página da zona de dados será aberta.

  4. Na guia Recursos, clique no nome do recurso que você quer fazer upgrade.

  5. Clique em Fazer downgrade de gerenciado.

REST

Siga as instruções da API para fazer downgrade de um recurso de bucket usando o Cloud Explorer. Defina o campo readAccessMode como DIRECT em ResourceSpec.

Remover um recurso

É possível remover um bucket do Cloud Storage ou um recurso de conjunto de dados do BigQuery no console do Google Cloud ou emitindo o método lakes.zones.assets.delete da API Dataplex. Remova o recurso da zona de dados ou do lake antes de anexá-lo a um diferente.

As instruções a seguir demonstram como remover um recurso do Dataplex usando o console do Google Cloud ou a API Dataplex.

Console

  1. No console do Google Cloud, abra a página do Dataplex:

    Abra o Dataplex no Console do Google Cloud

  2. Na página Gerenciar, clique no lake de onde você quer remover um bucket do Cloud Storage ou conjunto de dados do BigQuery. A página do lake será aberta.

    página de detalhes do lake
  3. Na guia Zonas, clique no nome da zona de dados da qual você quer remover o bucket do Cloud Storage ou o conjunto de dados do BigQuery. A página "Zona de dados" da zona de dados é aberta.

  4. Na guia Recursos, selecione o recurso marcando a caixa à esquerda do nome dele.

  5. Clique em Excluir recurso para remover o recurso.

  6. Na caixa de diálogo, clique em Excluir para confirmar a remoção.

REST

Siga as instruções da API para remover um bucket usando o Cloud Explorer.

A seguir