Esta página apresenta zonas e explica como adicioná-las à sua do Dataplex.
Conceitos de zona do Dataplex
As zonas de dados são entidades nomeadas em um lake do Dataplex. São agrupamentos lógicos de dados não estruturados, semiestruturados e estruturados e consiste em vários recursos, como buckets do Cloud Storage, conjuntos de dados e tabelas do BigQuery.
Um lake pode incluir uma ou mais zonas. Enquanto uma zona só pode fazer parte de um data lake, pode conter ativos que apontam para recursos que fazem parte de projetos fora do projeto pai.
É possível selecionar configurações para uma zona no Dataplex. Existem dois tipos de zonas para escolher: brutas e selecionadas.
Zonas brutas
As zonas brutas armazenam dados estruturados e semiestruturados, como arquivos CSV Arquivos JSON e dados não estruturados em qualquer formato de fontes externas. Isso é útil para preparar dados brutos antes de realizar transformações de dados. Os dados podem ser armazenados em buckets do Cloud Storage ou em conjuntos de dados do BigQuery.
As zonas brutas oferecem suporte à granularidade no nível do conjunto de dados ou do bucket para permissões de leitura e gravação. Para mais informações, consulte IAM e controle de acesso.
Não há restrições quanto ao tipo de dados que podem ser armazenados em zonas brutas.
Zonas selecionadas
As zonas selecionadas armazenam dados estruturados. Os dados podem ser armazenados em buckets do Cloud Storage ou em conjuntos de dados do BigQuery.
Os formatos compatíveis com os buckets do Cloud Storage incluem Parquet, Avro e ORC. Isso é útil para testar dados que precisam ser processados antes de serem usados ou para disponibilizar dados prontos para análise.
Para tabelas do BigQuery, você precisa ter um esquema bem definido e Partições no estilo Hive. Quando você fornece um esquema para uma determinada tabela em uma zona curada, os dados precisam estar em conformidade com o esquema definido para a tabela sem desvios no esquema.
Isso significa que os dados precisam ser compatíveis com o esquema definido para a tabela, e as novas partições não podem ter um esquema que entre em conflito com o esquema da tabela.
As zonas selecionadas oferecem suporte à granularidade no nível do bucket do Cloud Storage ou do conjunto de dados do BigQuery para permissões de leitura e gravação. Saiba mais em Controle de acesso com o IAM.
Antes de começar
Antes de adicionar zonas a um lake, você precisa ter um lake. Crie um lake, caso ainda não tenha feito isso.
A maioria dos comandos gcloud lake
requer um local. É possível especificar o local
definindo o parâmetro --location
.
Controle de acesso
- Para adicionar uma zona, você precisa receber papéis do IAM com
a permissão do IAM
dataplex.lakes.create
. O papel específico do Dataplexroles/dataplex.admin
pode ser usado para conceder permissões de adicionar.
Para mais informações, consulte Controle de acesso do Dataplex com IAM.
Adicionar uma zona
É possível criar e adicionar uma nova zona a um lake atual emitindo o método lakes.zones.create
da API Dataplex ou adicionando uma zona no console do Google Cloud.
É possível adicionar várias zonas ao seu lake. Você pode adicionar uma zona por vez, mas ainda pode usar o lake enquanto a zona está sendo criada.
Console
No console do Google Cloud, acesse o Dataplex:
Navegue até a visualização Gerenciar.
Na visualização Gerenciar, clique no nome do lake a que você quer adicionar uma zona.
Na guia Zonas, clique em
. Adicionar zona.Digite um Nome de exibição para a zona.
Clique no menu suspenso Tipo. Escolha Raw Zone ou Curated Zone. Aprender Saiba mais sobre os tipos de zona com suporte.
Opcional: insira uma descrição.
Em Locais dos dados, selecione Regional ou Multirregional. A escolha não poderá ser alterada depois. Os dados de região única e multirregião não podem ser combinados na mesma zona.
Opcional: ative a descoberta de metadados, que permite que o Dataplex verifique e extraia automaticamente os metadados dos dados na sua zona:
Clique em Configurações de descoberta.
Verifique se a opção Ativar descoberta de metadados está selecionada.
Opcional: em Incluir padrões, liste os arquivos a serem incluídos nas verificações de descoberta.
Opcional: em Excluir padrões, liste os arquivos a serem excluídos nas verificações de descoberta. Se você inserir padrões de inclusão e exclusão, exclua são aplicados primeiro.
Clique no menu suspenso Repetições e selecione uma frequência.
Clique na lista suspensa Fuso horário e selecione um fuso horário.
Se você selecionou Personalizado em Repete, insira uma programação de tarefas em Programação. Caso contrário, o valor Programação será preenchido automaticamente.
Clique em Criar.
A criação da zona pode levar alguns minutos.
REST
Siga as instruções da API para adicionar uma zona. usando a ferramenta APIs Explorer.
Quando a criação da zona é concluída, ela entra automaticamente no estado ativo. Se ela falhar, o lake será revertido ao estado anterior.
Depois de criar a zona, é possível mapear os dados armazenados em buckets do Cloud Storage e conjuntos de dados do BigQuery como recursos na zona.
A seguir
- Saiba mais sobre como gerenciar buckets.
- Saiba mais sobre como criar um lago.
- Saiba mais sobre os registros de auditoria do Cloud.