Adicionar uma zona

Esta página apresenta zonas e explica como adicioná-las à sua do Dataplex.

Conceitos de zona do Dataplex

As zonas de dados são entidades nomeadas em um lake do Dataplex. Eles são agrupamentos lógicos de dados não estruturados, semiestruturados e estruturados, compostos por vários recursos, como buckets do Cloud Storage, conjuntos de dados do BigQuery e tabelas do BigQuery.

Um lake pode incluir uma ou mais zonas. Enquanto uma zona só pode fazer parte de um data lake, pode conter ativos que apontam para recursos que fazem parte de projetos fora do projeto pai.

É possível selecionar configurações para uma zona no Dataplex. Há dois tipos de zonas: brutas e selecionadas.

Zonas brutas

As zonas brutas armazenam dados estruturados, semiestruturados, como arquivos CSV e JSON, e dados não estruturados em qualquer formato de fontes externas. Isso é útil para preparar dados brutos antes de realizar qualquer transformação. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

As zonas brutas oferecem suporte à granularidade no nível do conjunto de dados ou do bucket para permissões de leitura e gravação. Para mais informações, consulte IAM e controle de acesso.

Não há restrições quanto ao tipo de dados que podem ser armazenados em zonas brutas.

Zonas selecionadas

As zonas selecionadas armazenam dados estruturados. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

Os formatos compatíveis com os buckets do Cloud Storage incluem Parquet, Avro e ORC. Isso é útil para testar dados que precisam ser processados antes de serem usados ou para disponibilizar dados prontos para análise.

Para tabelas do BigQuery, você precisa ter um esquema bem definido e Partições no estilo Hive. Quando você fornece um esquema para uma determinada tabela em uma zona curada, os dados precisam estar em conformidade com o esquema definido para a tabela sem desvios no esquema.

Isso significa que os dados devem ser compatíveis com o esquema definido para a tabela, e novas partições não devem ter um esquema que entra em conflito com o esquema da tabela.

As zonas selecionadas oferecem suporte à granularidade no nível do bucket do Cloud Storage ou do conjunto de dados do BigQuery para permissões de leitura e gravação. Para mais informações, consulte Controle de acesso com o IAM.

Antes de começar

Antes de adicionar zonas a um lake, é preciso ter um lake. Se você ainda não crie um lake.

A maioria dos comandos gcloud lake requer um local. É possível especificar o local definindo o parâmetro --location.

Controle de acesso

  • Para adicionar uma zona, você precisa receber papéis do IAM que contenham a permissão do IAM dataplex.lakes.create. O Dataplex o papel específico roles/dataplex.admin pode ser usado para conceder permissões de adição.

Saiba mais em Controle de acesso do Dataplex com o IAM.

Adicionar uma zona

É possível criar e adicionar uma nova zona a um lake atual emitindo o método lakes.zones.create da API Dataplex ou adicionando uma zona no console do Google Cloud.

É possível adicionar várias zonas ao lake. Você pode adicionar uma zona por vez, mas ainda vão usar o lake enquanto a zona estiver sendo criada.

Console

  1. No console do Google Cloud, acesse o Dataplex:

    Acesse o Dataplex.

  2. Navegue até a visualização Gerenciar.

  3. Na visualização Gerenciar, clique no nome do lake a que você quer adicionar uma zona.

  4. Na guia Zonas, clique em . Adicionar zona.

  5. Digite um Nome de exibição para a zona.

  6. Clique no menu suspenso Tipo. Escolha Zona bruta ou Zona selecionada. Saiba mais sobre os tipos de zona com suporte.

  7. Opcional: insira uma descrição.

  8. Em Locais dos dados, selecione Regional ou Multirregião. A escolha não poderá ser alterada depois. Região única e multirregião os dados não podem ser misturados na mesma zona.

  9. Opcional: ativar a descoberta de metadados, que permite ao Dataplex para verificar e extrair automaticamente metadados dos dados na sua zona:

    1. Clique em Configurações de descoberta.

    2. Verifique se a opção Ativar descoberta de metadados está selecionada.

    3. Opcional: em Incluir padrões, liste os arquivos a serem incluídos nas verificações de descoberta.

    4. Opcional: em Excluir padrões, liste os arquivos a serem excluídos no as verificações de descoberta. Se você inserir padrões de inclusão e exclusão, os padrões de exclusão serão aplicados primeiro.

    5. Clique no menu suspenso Repetições e selecione uma frequência.

    6. Clique no menu suspenso Fuso horário e selecione uma opção.

    7. Se em Repetições você selecionar Personalizado, em Programação, insira um cronograma de trabalho. Caso contrário, o valor Programação será preenchido automaticamente.

  10. Clique em Criar.

A criação da zona pode levar alguns minutos.

REST

Siga as instruções da API para adicionar uma zona. usando a ferramenta APIs Explorer.

Quando a criação da zona é concluída, ela entra automaticamente no estado ativo. Se ela falhar, o lake será revertido ao estado anterior.

Depois de criar a zona, é possível mapear os dados armazenados em buckets do Cloud Storage e conjuntos de dados do BigQuery como recursos na zona.

A seguir