Este documento descreve o que são as zonas do Dataplex Universal Catalog e como as adicionar ao seu lake do Dataplex Universal Catalog.
Vista geral
As zonas do Dataplex Universal Catalog são entidades com nome num lake do Dataplex Universal Catalog. São agrupamentos lógicos de dados não estruturados, semiestruturados e estruturados, que consistem em vários recursos, como contentores do Cloud Storage, conjuntos de dados do BigQuery e tabelas do BigQuery.
Um lago pode incluir uma ou mais zonas. Embora uma zona só possa fazer parte de um lago, pode conter recursos que apontam para recursos que fazem parte de projetos fora do respetivo projeto principal.
Pode selecionar configurações para uma zona no catálogo universal do Dataplex. Existem dois tipos de zonas que pode escolher: não processadas e organizadas.
Zonas não processadas
As zonas não processadas armazenam dados estruturados, dados semiestruturados, como ficheiros CSV e ficheiros JSON, e dados não estruturados em qualquer formato de origens externas. As zonas não processadas são úteis para preparar dados não processados antes de realizar transformações. Os dados podem ser armazenados em contentores do Cloud Storage ou conjuntos de dados do BigQuery.
As zonas não processadas suportam o nível de detalhe ao nível do conjunto de dados ou do bucket para autorizações de leitura e escrita. Não existem restrições quanto ao tipo de dados que podem ser armazenados em zonas não processadas.
Zonas organizadas
As zonas organizadas armazenam dados estruturados. Os dados podem ser armazenados em contentores do Cloud Storage ou conjuntos de dados do BigQuery.
Os formatos suportados para contentores do Cloud Storage incluem Parquet, Avro e ORC. As zonas organizadas são úteis para preparar dados que requerem processamento antes de serem usados para análise ou para publicar dados que estão prontos para análise.
Para tabelas do BigQuery, tem de ter um esquema bem definido e partições no estilo do Hive. Quando fornece um esquema para uma determinada tabela numa zona organizada, os dados devem estar em conformidade com o esquema definido para a tabela sem desvio do esquema. Isto significa que os dados devem ser compatíveis com o esquema definido para a tabela e que as novas partições não devem ter um esquema que entre em conflito com o esquema da tabela.
As zonas preparadas suportam a granularidade ao nível do contentor do Cloud Storage ou do conjunto de dados do BigQuery para autorizações de leitura e escrita.
Antes de começar
Antes de poder adicionar zonas a um lago, tem de ter um lago. Se ainda não o fez, crie um lago.
A maioria dos comandos do gcloud lake
requer uma localização. Pode especificar a localização
definindo o parâmetro --location
.
Funções necessárias
Para receber a autorização de que
precisa para adicionar uma zona,
peça ao seu administrador para lhe conceder a função IAM de
administrador do Dataplex (roles/dataplex.admin
) no projeto.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Esta função predefinida contém a autorização
dataplex.lakes.create
, que é necessária para
adicionar uma zona.
Também pode obter esta autorização com funções personalizadas ou outras funções predefinidas.
Adicione uma zona
Pode adicionar várias zonas ao seu lago. Pode adicionar uma zona de cada vez, mas continuar a usar o seu lago enquanto a zona está a ser criada.
Para adicionar uma zona a um lago existente, siga estes passos:
Consola
Na Google Cloud consola, aceda à página Lakes do Dataplex Universal Catalog.
Clique no nome do lago ao qual quer adicionar uma zona.
No separador Zonas, clique em
Adicionar zona.Introduza um Nome a apresentar para a sua zona.
Clique no menu Tipo. Escolha Zona não processada ou Zona organizada. Saiba mais sobre os tipos de zonas suportados.
Opcional: introduza uma descrição.
Em Localizações de dados, selecione Regional ou Multirregional. Não pode alterar a sua escolha mais tarde. Não é possível misturar dados de região única e de várias regiões na mesma zona.
Opcional: ative a descoberta de metadados, que permite ao catálogo universal do Dataplex analisar e extrair automaticamente metadados dos dados na sua zona:
Clique em Definições de descoberta.
Certifique-se de que a opção Ativar deteção de metadados está selecionada.
Opcional: em Incluir padrões, liste os ficheiros a incluir nas análises de deteção.
Opcional: em Padrões de exclusão, liste os ficheiros a excluir nas análises de deteção. Se introduzir padrões de inclusão e exclusão, os padrões de exclusão são aplicados primeiro.
Clique no menu Repetições e selecione uma frequência. Se selecionar Personalizado, no campo Agendar, introduza um horário de trabalho. Caso contrário, o valor Schedule é preenchido automaticamente.
Clique no menu Fuso horário e selecione um fuso horário.
Clique em Criar.
REST
Para adicionar uma zona, use o método lakes.zones.create.
A criação da zona pode demorar alguns minutos.
Quando a criação da zona é bem-sucedida, a zona entra automaticamente no estado ativo. Se falhar, o data lake é revertido para o estado anterior.
Depois de criar a sua zona, pode mapear os dados armazenados em contentores do Cloud Storage e conjuntos de dados do BigQuery como recursos para a sua zona. Para mais informações, consulte o artigo Adicione um recurso.
O que se segue?
- Saiba como gerir contentores.
- Saiba como criar um lago.
- Saiba mais sobre os registos de auditoria do Cloud.