Práticas recomendadas do Dataplex

Este documento oferece orientações e práticas recomendadas para usar o Dataplex.

Escolher um projeto para seu lake

Ao selecionar o projeto em que o lake será hospedado, considere o seguinte: fatores:

  • O projeto deve pertencer ao mesmo Perímetro do VPC Service Controls como os dados que vão ficar no data lake.

  • A conta de serviço do lake requer permissões de administrador no buckets do Cloud Storage ou conjuntos de dados do BigQuery. O Dataplex cria tabelas externas no BigQuery para descobertas no Cloud Storage. O Dataplex também oferece metadados de tabela do BigQuery disponíveis e tabelas descobertas na bucket do Cloud Storage, em um metastore do Dataproc. O O metastore do Dataproc está localizado no projeto de data lake.

Configurações e limitações do Cloud Storage

  • Região: o Dataplex oferece suporte a região única e buckets multirregionais em algumas regiões do Google Cloud.

  • Classe de armazenamento: todos os buckets do Cloud Storage classes de armazenamento são compatíveis (Standard, Nearline, Coldline, Archive). Pode haver custos adicionais de recuperação de dados para acesso ou verificação dados Nearline, Coldline ou Archive.

  • ACL do bucket: o Dataplex oferece suporte a buckets do Cloud Storage com apenas para controles de acesso uniformes. Não há suporte para controles de acesso refinados.

  • Pagamentos do solicitante: buckets do Cloud Storage com o recurso Pagamentos do solicitante ativado são não tem suporte.

Orientações sobre segurança e permissões

O Dataplex exige a adição do Dataplex contas de serviço como uma conta de serviço administrativa em buckets e conjuntos de dados gerenciados.

Com o Dataplex, os analistas podem acessar buckets do Cloud Storage e os conjuntos de dados do BigQuery em vários projetos. Para ativar esse acesso, O Dataplex exige a adição do serviço Dataplex contas com controles administrativos nesses projetos.

Para o Discovery, o Dataplex adiciona a Conta de serviço do Dataproc Metastore para o Cloud Storage buckets de armazenamento. Caso você tenha um cluster próprio do Dataproc Metastore, talvez você queira fazer o lake do Dataplex usar serviço Metastore do Dataproc, que é uma opção ao criar no seu data lake.

Se você adicionar um bucket do Cloud Storage com acesso refinado a um lake, O Dataplex vai fornecer acesso total a esse bucket pelo lake porque as permissões do Dataplex são propagadas do Google Cloud. Se você precisar de acesso refinado, é recomendável dividir os dados em vários buckets.

A seguir