Adicionar uma zona

Esta página apresenta zonas e explica como adicioná-las à sua do Dataplex.

Conceitos de zona do Dataplex

As zonas de dados são entidades nomeadas em um lake do Dataplex. São agrupamentos lógicos de dados não estruturados, semiestruturados e estruturados e consiste em vários recursos, como buckets do Cloud Storage, conjuntos de dados e tabelas do BigQuery.

Um lake pode incluir uma ou mais zonas. Enquanto uma zona só pode fazer parte de um um data lake, pode conter ativos que apontam para recursos que fazem parte de projetos fora do projeto pai.

É possível selecionar configurações para uma zona no Dataplex. Existem dois tipos de zonas para escolher: brutas e selecionadas.

Zonas brutas

As zonas brutas armazenam dados estruturados e semiestruturados, como arquivos CSV Arquivos JSON e dados não estruturados em qualquer formato de fontes externas. Isso é útil para preparar dados brutos antes de realizar transformações de dados. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

As zonas brutas oferecem suporte à granularidade no nível do bucket ou do conjunto de dados para leitura e gravação permissões. Para mais informações, consulte IAM e controle de acesso.

Não há restrições sobre o tipo de dados que podem ser armazenados nas zonas brutas.

Zonas selecionadas

As zonas selecionadas armazenam dados estruturados. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

Os formatos compatíveis com os buckets do Cloud Storage incluem Parquet, Avro e ORC. Isso é útil para testar dados que precisam ser processados antes de serem usados ou para disponibilizar dados prontos para análise.

Para tabelas do BigQuery, você precisa ter um esquema bem definido e partições no estilo Hive. Quando você fornece um esquema para uma determinada tabela em um zona, os dados devem estar em conformidade com o esquema definido para a tabela sem esquema deslocamento.

Isso significa que os dados devem ser compatíveis com o esquema definido para a tabela, e novas partições não devem ter um esquema que entra em conflito com o esquema da tabela.

As zonas selecionadas dão suporte bucket do Cloud Storage Granularidade no nível do conjunto de dados do BigQuery para leitura e gravação permissões. Para mais informações, consulte Controle de acesso com o IAM.

Antes de começar

Antes de adicionar zonas a um lake, é preciso ter um lake. Se você ainda não crie um lake.

A maioria dos comandos gcloud lake requer um local. É possível especificar o local definindo o parâmetro --location.

Controle de acesso

  • Para adicionar uma zona, você precisa receber papéis do IAM com a permissão do IAM dataplex.lakes.create. O Dataplex o papel específico roles/dataplex.admin pode ser usado para conceder permissões de adição.

Para mais informações, consulte Controle de acesso do Dataplex com IAM.

Adicionar uma zona

É possível criar e adicionar uma zona a um lake atual emitindo Método da API Dataplex lakes.zones.create ou adicionando uma zona ao console do Google Cloud.

É possível adicionar várias zonas ao seu lake. Você pode adicionar uma zona por vez, mas ainda vão usar o lake enquanto a zona estiver sendo criada.

Console

  1. No console do Google Cloud, acesse o Dataplex:

    Acesse o Dataplex.

  2. Navegue até a visualização Gerenciar.

  3. Na visualização Gerenciar, clique no nome do lake a que você quer adicionar um zona.

  4. Na guia Zonas, clique em . Adicionar zona.

  5. Digite um Nome de exibição para a zona.

  6. Clique no menu suspenso Tipo. Selecione Raw Zone ou Curated Zone. Aprender Saiba mais sobre os tipos de zona com suporte.

  7. Opcional: insira uma descrição.

  8. Em Locais dos dados, selecione Regional ou Multirregional. O que você escolher não poderá ser alterado depois. Região única e multirregião os dados não podem ser misturados na mesma zona.

  9. Opcional: ativar a descoberta de metadados, que permite ao Dataplex para verificar e extrair automaticamente metadados dos dados na sua zona:

    1. Clique em Configurações de descoberta.

    2. Verifique se a opção Ativar descoberta de metadados está selecionada.

    3. Opcional: em Incluir padrões, liste os arquivos a serem incluídos no as verificações de descoberta.

    4. Opcional: em Excluir padrões, liste os arquivos a serem excluídos no as verificações de descoberta. Se você inserir padrões de inclusão e exclusão, exclua são aplicados primeiro.

    5. Clique na lista suspensa Repetições e selecione uma frequência.

    6. Clique na lista suspensa Fuso horário e selecione um fuso horário.

    7. Se em Repetições você selecionar Personalizado, em Programação, insira um cronograma de trabalho. Caso contrário, o valor de Programação será preenchido automaticamente.

  10. Clique em Criar.

A criação da zona pode levar alguns minutos.

REST

Siga as instruções da API para adicionar uma zona. usando a ferramenta APIs Explorer.

Quando a criação da zona é concluída, ela entra automaticamente no estado ativo. Se ela falhar, o lake será revertido ao estado anterior.

Depois de criar a zona, é possível mapear dados armazenados nos buckets do Cloud Storage e conjuntos de dados do BigQuery como recursos na sua zona.

A seguir