Esta página explica como adicionar, fazer upgrade e remover buckets do Cloud Storage e conjuntos de dados do BigQuery como recursos em zonas do Dataplex.
Visão geral
Um recurso é associado a dados armazenados no Cloud Storage ou no BigQuery. É possível mapear dados armazenados em projetos separados do Google Cloud como recursos em uma única zona em um lake. É possível anexar buckets do Cloud Storage ou conjuntos de dados do BigQuery para serem gerenciados no lake.
Antes de começar
Crie um lake e uma zona nele, se ainda não tiver feito isso.
A maioria dos comandos
gcloud lakes
requer um local. É possível especificar o local usando a flag--location
.
Funções exigidas
Para remover recursos, conceda os papéis do IAM que contêm as permissões
dataplex.lakes.delete
,dataplex.zones.delete
oudataplex.assets.delete
. Os papéis específicos do Dataplexroles/dataplex.admin
eroles/dataplex.editor
podem ser usados para conceder essas permissões.Para adicionar recursos, conceda os papéis do IAM que contêm as permissões
create
,dataplex.lakes.create
,dataplex.zones.create
oudataplex.assets.create
. Os papéisroles/dataplex.admin
eroles/dataplex.editor
contêm essas permissões.Também é possível conceder permissão a usuários ou grupos usando os papéis legados
roles/owner
eroles/editor
.É necessário autorizar o serviço do Dataplex nos recursos que estão sendo anexados ao lake do Dataplex. A autorização é concedida de forma automática e implícita para os recursos no projeto em que o lago é criado. Para outros projetos, autorize o serviço do Dataplex nos recursos explicitamente.
Para mais informações, consulte IAM e controle de acesso do Dataplex.
Atribuir papéis a buckets do Cloud Storage
Para anexar um bucket do Cloud Storage de outro projeto ao lake, é necessário conceder à conta de serviço do Dataplex (service-PROJECT_NUMBER@gcp-sa-dataplex.iam.gserviceaccount.com
, recuperada na página de detalhes do lake no console) o papel de conta de serviço do Dataplex (roles/dataplex.serviceAgent
) no projeto que contém o bucket. Esse papel fornece ao
serviço do Dataplex o papel de administrador no bucket para que
as permissões possam ser definidas no próprio bucket.
Conceder papéis para conjuntos de dados do BigQuery
Para anexar um conjunto de dados do BigQuery de outro projeto ao seu lago, é necessário conceder à conta de serviço do Dataplex a função de administrador do BigQuery no conjunto de dados.
Considerações sobre os VPC Service Controls
O Dataplex não viola os perímetros do VPC Service Controls. Antes de adicionar um recurso ao lake, verifique se o bucket ou conjunto de dados subjacente está na mesma rede do VPC Service Controls que o lake.
Para mais informações, consulte VPC Service Controls com Dataplex.
Adicionar um recurso
Se não houver sobreposição entre a região do lake do Dataplex e uma das regiões dos buckets do Cloud Storage, não será possível adicionar o bucket a uma zona no lake.
Para saber mais sobre a localização da região de um recurso do Cloud Storage e como o Dataplex lida com a localização de um bucket ao criar o conjunto de dados de publicação, consulte Recursos regionais.
Para adicionar um recurso, siga estas etapas:
Console
No console do Google Cloud , acesse a página do Dataplex.
Na página Gerenciar, clique no lake a que você quer adicionar um bucket do Cloud Storage ou um conjunto de dados do BigQuery. A página do lago é aberta.
Na guia Zonas, clique no nome da zona de dados a que você quer adicionar o recurso. A página da zona de dados para essa zona de dados é aberta.
Na guia Recursos, clique em + Adicionar recursos. A página Adicionar recursos é aberta.
Clique em Adicionar um recurso.
No campo Type, selecione Conjunto de dados do BigQuery ou Bucket do Cloud Storage.
No campo Nome de exibição, digite um nome para o novo recurso.
No campo ID, insira um ID exclusivo para o recurso.
Opcional: digite uma Descrição.
No campo Dataset ou Bucket (com base no tipo do seu recurso), clique em Procurar para encontrar e selecionar o bucket do Cloud Storage ou o conjunto de dados do BigQuery.
Opcional: se o tipo de recurso for Bucket do Cloud Storage e você querer que o Dataplex gerencie o recurso, selecione a caixa de seleção Upgrade to Managed. Se você escolher essa opção, não será necessário fazer upgrade do recurso separadamente. Essa opção não está disponível para conjuntos de dados do BigQuery.
Clique em Continuar.
Escolha o restante dos valores de parâmetro. Para mais informações sobre as configurações de segurança, consulte Segurança do lago.
Clique em Enviar.
Verifique se você retornou para a página da zona de dados e se o novo recurso aparece na lista de recursos.
REST
Para adicionar um recurso, use o método lakes.zones.assets.create.
Quando a adição é bem-sucedida, a zona de dados entra automaticamente no estado ativo. Se ele falhar, a zona de dados será revertida para o estado íntegro anterior.
Fazer upgrade de um recurso de bucket do Cloud Storage
Quando você adiciona um recurso do tipo bucket do Cloud Storage, o Dataplex publica automaticamente tabelas externas do BigQuery para as tabelas hospedadas no recurso.
Quando você faz upgrade de um recurso de bucket do Cloud Storage, o Dataplex remove as tabelas externas anexadas e cria tabelas do BigLake. As tabelas do BigLake oferecem suporte a uma segurança mais refinada, incluindo mascaramento de dados dinâmico, no nível da linha e da coluna.
Para fazer upgrade de um recurso de bucket do Cloud Storage, siga estas etapas:
Console
No console do Google Cloud , acesse a página do Dataplex.
Na página Gerenciar, clique no nome do lake. A página do lago é aberta.
Na guia Zonas, clique no nome da zona de dados. A página da zona de dados é aberta.
Na guia Recursos, clique no nome do recurso que você quer atualizar.
Clique em Fazer upgrade para gerenciado.
REST
Para fazer upgrade de um recurso de bucket, use o método lakes.zones.assets.patch.
Fazer downgrade de um recurso de bucket do Cloud Storage
Quando você faz downgrade de um recurso de bucket do Cloud Storage, o Dataplex remove as tabelas do BigLake anexadas e cria tabelas externas.
Console
No console do Google Cloud , acesse a página do Dataplex.
Na página Gerenciar, clique no nome do lake. A página do lago é aberta.
Na guia Zonas, clique no nome da zona de dados. A página da zona de dados é aberta.
Na guia Recursos, clique no nome do recurso que você quer atualizar.
Clique em Fazer downgrade do modo gerenciado.
REST
Para fazer downgrade de um recurso de bucket, use o método
lakes.zones.assets.patch. Defina o campo readAccessMode
como DIRECT
em
ResourceSpec
.
Remover um recurso
Remova o recurso da zona ou do lago de dados antes de anexar a outro.
Para remover um recurso, siga estas etapas:
Console
No console do Google Cloud , acesse a página do Dataplex.
Na página Gerenciar, clique no data lake de onde você quer remover um bucket do Cloud Storage ou um conjunto de dados do BigQuery. A página do lago é aberta.
Na guia Zonas, clique no nome da zona de dados de que você quer remover o bucket do Cloud Storage ou o conjunto de dados do BigQuery. A página da zona de dados é aberta.
Na guia Recursos, selecione o recurso marcando a caixa à esquerda do nome dele.
Clique em Excluir recurso.
Na caixa de diálogo de confirmação, clique em Excluir.
REST
Para remover um bucket, use o método lakes.zones,assets.delete.
A seguir
- Saiba mais sobre como descobrir dados.
- Saiba como criar um lago.
- Saiba mais sobre os registros de auditoria do Cloud.