Práticas recomendadas para o Dataplex Universal Catalog

Este documento fornece orientações e práticas recomendadas para usar o Dataplex Universal Catalog.

Escolha um projeto para o seu lake

Quando selecionar o projeto no qual alojar o seu lake, considere os seguintes fatores:

  • O projeto tem de pertencer ao mesmo perímetro dos VPC Service Controls que os dados destinados a estar no lake.

  • A conta de serviço do lago requer autorizações de administrador nos contentores do Cloud Storage ou nos conjuntos de dados do BigQuery. O catálogo universal do Dataplex cria tabelas externas no BigQuery para tabelas descobertas no Cloud Storage. O catálogo universal do Dataplex também disponibiliza metadados de tabelas do BigQuery e tabelas descobertas no contentor do Cloud Storage num serviço Dataproc Metastore. O Dataproc Metastore está localizado no projeto de lago de dados.

Definições e limitações do armazenamento na nuvem

  • Região: o Dataplex Universal Catalog suporta buckets de região única e multirregião em algumas Google Cloud regiões.

  • Classe de armazenamento: os contentores do Cloud Storage de todas as classes de armazenamento são suportados (Standard, Nearline, Coldline e Archive). Podem incorrer em custos adicionais de obtenção de dados ao aceder ou analisar dados Nearline, Coldline ou de arquivo.

  • ACL do contentor: o catálogo universal do Dataplex só suporta contentores do Cloud Storage com controlos de acesso uniformes. Os controlos de acesso detalhados não são suportados.

  • Pagamento pelo requerente: os contentores do Cloud Storage com a funcionalidade Pagamento pelo requerente ativada não são suportados.

Orientações de segurança e autorizações

O Dataplex Universal Catalog requer a adição das contas de serviço do Dataplex Universal Catalog como uma conta de serviço administrativa em conjuntos de dados e contentores geridos.

O catálogo universal do Dataplex permite que os analistas acedam a contentores do Cloud Storage e a conjuntos de dados do BigQuery em vários projetos. Para ativar este acesso, o Dataplex Universal Catalog requer a adição das contas de serviço do Dataplex Universal Catalog com controlos administrativos a estes projetos.

Para a deteção, o Dataplex Universal Catalog adiciona a conta de serviço do Dataproc Metastore aos contentores do Cloud Storage. Se tiver o seu próprio cluster do Dataproc Metastore, pode querer que o lago do catálogo universal do Dataplex use o seu serviço do Dataproc Metastore, o que é uma opção quando cria o seu lago.

Se optar por adicionar um contentor do Cloud Storage com acesso detalhado a um lake, o catálogo universal do Dataplex fornece acesso total a esse contentor através do lake porque as autorizações do catálogo universal do Dataplex são propagadas a todos os objetos no contentor. Se precisar de acesso detalhado, recomendamos que divida os dados no seu contentor em vários contentores.

O que se segue?