Este documento descreve o que são as zonas do Dataplex e como adicioná-las ao lake do Dataplex.
Visão geral
As zonas do Dataplex são entidades nomeadas em um lake do Dataplex. Eles são agrupamentos lógicos de dados não estruturados, semiestruturados e estruturados, que consistem em vários recursos, como buckets do Cloud Storage, conjuntos de dados e tabelas do BigQuery.
Um lago pode incluir uma ou mais zonas. Embora uma zona só possa fazer parte de um lago, ela pode conter recursos que apontam para recursos que fazem parte de projetos fora do projeto pai.
É possível selecionar configurações para uma zona no Dataplex. Há dois tipos de zonas: brutas e selecionadas.
Zonas brutas
As zonas brutas armazenam dados estruturados, semiestruturados, como arquivos CSV e JSON, e dados não estruturados em qualquer formato de fontes externas. As zonas brutas são úteis para preparar dados brutos antes de realizar transformações. Os dados podem ser armazenados em buckets do Cloud Storage ou em conjuntos de dados do BigQuery.
As zonas brutas oferecem suporte à granularidade no nível do conjunto de dados ou do bucket para permissões de leitura e gravação. Não há restrições quanto ao tipo de dados que podem ser armazenados em zonas brutas.
Zonas selecionadas
As zonas selecionadas armazenam dados estruturados. Os dados podem ser armazenados em buckets do Cloud Storage ou em conjuntos de dados do BigQuery.
Os formatos compatíveis com os buckets do Cloud Storage incluem Parquet, Avro e ORC. As zonas selecionadas são úteis para dados de preparo que precisam de processamento antes de serem usados para análise ou para exibir dados que estão prontos para análise.
Para tabelas do BigQuery, é necessário ter um esquema bem definido e partições no estilo do Hive. Quando você fornece um esquema para uma determinada tabela em uma zona curada, os dados precisam estar em conformidade com o esquema definido para a tabela sem desvios no esquema. Isso significa que os dados precisam ser compatíveis com o esquema definido para a tabela, e as novas partições não podem ter um esquema que entre em conflito com o esquema da tabela.
As zonas selecionadas oferecem suporte à granularidade no nível do bucket do Cloud Storage ou do conjunto de dados do BigQuery para permissões de leitura e gravação.
Antes de começar
Antes de adicionar zonas a um lake, você precisa ter um lake. Crie um lake, caso ainda não tenha feito isso.
A maioria dos comandos gcloud lake
requer um local. É possível especificar o local
definindo o parâmetro --location
.
Funções exigidas
Para receber a permissão necessária para adicionar uma zona, peça ao administrador para conceder a você o papel do IAM de Administrador do Dataplex (roles/dataplex.admin
) no projeto.
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Esse papel predefinido contém a
permissão dataplex.lakes.create
,
que é necessária para
adicionar uma zona.
Também é possível conseguir essa permissão com papéis personalizados ou outros papéis predefinidos.
Adicionar uma zona
É possível adicionar várias zonas ao lake. É possível adicionar uma zona por vez, mas ainda usar o lake enquanto a zona está sendo criada.
Para adicionar uma zona a um lago existente, siga estas etapas:
Console
No console do Google Cloud , acesse o Dataplex.
Acesse a visualização Gerenciar.
Na visualização Gerenciar, clique no nome do lake a que você quer adicionar uma zona.
Na guia Zonas, clique em
Adicionar zona.Insira um nome de exibição para a zona.
Clique no menu Tipo. Escolha Zona bruta ou Zona selecionada. Saiba mais sobre os tipos de zona compatíveis.
Opcional: insira uma descrição.
Em Locais dos dados, selecione Regional ou Multirregião. A escolha não pode ser alterada depois. Os dados de região única e multirregião não podem ser combinados na mesma zona.
Opcional: ative a descoberta de metadados, que permite que o Dataplex verifique e extraia automaticamente os metadados dos dados na sua zona:
Clique em Configurações de descoberta.
Verifique se a opção Ativar descoberta de metadados está selecionada.
Opcional: em Incluir padrões, liste os arquivos a serem incluídos nas verificações de descoberta.
Opcional: em Excluir padrões, liste os arquivos a serem excluídos nas verificações de descoberta. Se você inserir padrões de inclusão e exclusão, os padrões de exclusão serão aplicados primeiro.
Clique no menu Repetições e selecione uma frequência. Se você selecionar Personalizado, insira uma programação de trabalhos no campo Programação. Caso contrário, o valor Programação será preenchido automaticamente.
Clique no menu Fuso horário e selecione um fuso horário.
Clique em Criar.
REST
Para adicionar uma zona, use o método lakes.zones.create.
Pode levar alguns minutos para a zona ser criada.
Quando a criação da zona é concluída, ela entra automaticamente no estado ativo. Se ele falhar, o lago será revertido para o estado anterior.
Depois de criar a zona, é possível mapear os dados armazenados em buckets do Cloud Storage e conjuntos de dados do BigQuery como recursos para a zona. Para mais informações, consulte Adicionar um recurso.
A seguir
- Saiba como gerenciar buckets.
- Saiba como criar um lago.
- Saiba mais sobre os registros de auditoria do Cloud.