Este documento fornece orientações e práticas recomendadas para usar o Dataplex.
Escolher um projeto para seu lake
Ao selecionar o projeto em que hospedar o data lake, considere os seguintes fatores:
O projeto precisa pertencer ao mesmo perímetro do VPC Service Controls que os dados destinados a estar no lago.
A conta de serviço do lago precisa de permissões de administrador nos buckets do Cloud Storage ou nos conjuntos de dados do BigQuery. O Dataplex cria tabelas externas no BigQuery para tabelas descobertas no Cloud Storage. O Dataplex também oferece metadados de tabela do BigQuery disponíveis e tabelas descobertas na bucket do Cloud Storage, em um metastore do Dataproc. O O metastore do Dataproc está localizado no projeto de data lake.
Configurações e limitações do Cloud Storage
Região: o Dataplex oferece suporte a buckets de região única e multirregional em algumas regiões do Google Cloud.
Classe de armazenamento: todos os buckets do Cloud Storage classes de armazenamento são compatíveis (Standard, Nearline, Coldline, Archive). Pode haver custos adicionais de recuperação de dados para acesso ou verificação Nearline, Coldline ou Archive.
ACL do bucket: o Dataplex oferece suporte apenas a buckets do Cloud Storage com controles de acesso uniformes. Não há suporte para controles de acesso refinados.
Pagamentos do solicitante: buckets do Cloud Storage com o recurso Pagamentos do solicitante ativado são não tem suporte.
Orientações sobre segurança e permissões
O Dataplex exige a adição do Dataplex contas de serviço como uma conta de serviço administrativa em buckets e conjuntos de dados gerenciados.
Com o Dataplex, os analistas podem acessar buckets do Cloud Storage e os conjuntos de dados do BigQuery em vários projetos. Para permitir esse acesso, o Dataplex exige a adição das contas de serviço do Dataplex com controles administrativos a esses projetos.
Para a descoberta, o Dataplex adiciona a conta de serviço do metastore do Dataproc aos buckets do Cloud Storage. Caso você tenha um cluster próprio do Dataproc Metastore, talvez você queira fazer o lake do Dataplex usar serviço Metastore do Dataproc, que é uma opção ao criar no seu data lake.
Se você adicionar um bucket do Cloud Storage com acesso refinado a um lake, O Dataplex vai fornecer acesso total a esse bucket pelo lake porque as permissões do Dataplex são propagadas para todos os objetos na do Google Cloud. Se você precisar de acesso detalhado, recomendamos dividir os dados do bucket em vários buckets.