Práticas recomendadas para o Dataplex

Este documento fornece orientações e práticas recomendadas para usar o Dataplex.

Escolher um projeto para o lago

Ao selecionar o projeto em que hospedar o data lake, considere os seguintes fatores:

  • O projeto precisa pertencer ao mesmo perímetro do VPC Service Controls que os dados destinados a estar no lago.

  • A conta de serviço do lago precisa de permissões de administrador nos buckets do Cloud Storage ou nos conjuntos de dados do BigQuery. O Dataplex cria tabelas externas no BigQuery para tabelas descobertas no Cloud Storage. O Dataplex também disponibiliza metadados tabela do BigQuery e tabelas descobertas no bucket do Cloud Storage em um metastore do Dataproc. O metastore do Dataproc está localizado no projeto do data lake.

Configurações e limitações do Cloud Storage

  • Região: o Dataplex oferece suporte a buckets de região única e multirregional em algumas regiões do Google Cloud .

  • Classe de armazenamento: os buckets do Cloud Storage de todas as classes de armazenamento são aceitos (Standard, Nearline, Coldline, Archive). Podem ocorrer custos adicionais de recuperação de dados para acessar ou verificar dados Nearline, Coldline ou Archive.

  • ACL do bucket: o Dataplex oferece suporte apenas a buckets do Cloud Storage com controles de acesso uniformes. Não há suporte para controles de acesso granular.

  • Pagamentos do solicitante: os buckets do Cloud Storage com o recurso Pagamentos do solicitante ativado não são compatíveis.

Orientações sobre segurança e permissões

O Dataplex exige a adição das contas de serviço do Dataplex como uma conta de serviço administrativa em buckets e conjuntos de dados gerenciados.

O Dataplex permite que analistas acessem buckets do Cloud Storage e conjuntos de dados do BigQuery em vários projetos. Para permitir esse acesso, o Dataplex exige a adição das contas de serviço do Dataplex com controles administrativos a esses projetos.

Para a descoberta, o Dataplex adiciona a conta de serviço do metastore do Dataproc aos buckets do Cloud Storage. Se você tiver seu próprio cluster do Dataproc Metastore, talvez seja melhor fazer com que o lake do Dataplex use seu serviço do Dataproc Metastore, que é uma opção ao criar o lake.

Se você adicionar um bucket do Cloud Storage com acesso detalhado a um lago, o Dataplex vai fornecer acesso total a esse bucket pelo lago, porque as permissões do Dataplex são propagadas para todos os objetos no bucket. Se você precisar de acesso detalhado, recomendamos dividir os dados do bucket em vários buckets.

A seguir