Práticas recomendadas

Neste documento, apresentamos orientações e práticas recomendadas para usar o Dataplex.

Escolha um projeto para seu lake

Ao selecionar o projeto em que hospedará seu lake, considere os seguintes fatores:

  • O projeto precisa pertencer ao mesmo perímetro do VPC Service Controls que os dados destinados a estar no lake.

  • A conta de serviço de lake requer permissões de administrador nos buckets do Cloud Storage ou nos conjuntos de dados do BigQuery. O Dataplex cria tabelas externas no BigQuery para tabelas descobertas no Cloud Storage. O Dataplex também disponibiliza metadados de tabela do BigQuery e tabelas descobertas no bucket do Cloud Storage em um metastore do Dataproc. O metastore do Dataproc está localizado no projeto de data lake.

Configurações e limitações do Cloud Storage

  • Região: o Dataplex é compatível com buckets de região única e multirregionais em algumas regiões do Google Cloud.

  • Classe de armazenamento: os buckets do Cloud Storage de todas as classes de armazenamento são compatíveis (Standard, Nearline, Coldline, Archive). Pode haver custos adicionais de recuperação de dados para acessar ou verificar dados Nearline, Coldline ou Archive.

  • ACL de bucket: o Dataplex é compatível com buckets do Cloud Storage apenas com controles de acesso uniforme. Não há suporte para controles de acesso refinados.

  • Pagamentos do solicitante: não há suporte para buckets do Cloud Storage com o recurso Pagamentos do solicitante ativado.

Orientações sobre segurança e permissões

O Dataplex exige a adição das contas de serviço do Dataplex como uma conta de serviço administrativa em buckets e conjuntos de dados gerenciados.

O Dataplex permite que os analistas acessem buckets do Cloud Storage e conjuntos de dados do BigQuery em vários projetos. Para ativar esse acesso, o Dataplex exige a adição das contas de serviço do Dataplex com controles administrativos a esses projetos.

Para o Discovery, o Dataplex adiciona a conta de serviço do Metastore do Dataproc aos buckets do Cloud Storage. Se você tem seu próprio cluster do Metastore do Dataproc, é recomendável fazer com que o lake do Dataplex use o serviço Metastore do Dataproc, que é uma opção disponível quando você cria o lake.

Se você adicionar um bucket do Cloud Storage com acesso detalhado a um lake, o Dataplex fornecerá acesso total a esse bucket por meio do lake, porque as permissões do Dataplex são propagadas para todos os objetos no bucket. Se você precisar de acesso detalhado, recomendamos dividir os dados do seu bucket em vários.

A seguir