Adicionar uma zona

Nesta página, apresentamos as zonas e explicamos como adicioná-las ao lake do Dataplex.

Conceitos de zona do Dataplex

As zonas de dados são entidades nomeadas em um lake do Dataplex. Eles são agrupamentos lógicos de dados não estruturados, semiestruturados e estruturados, compostos de vários recursos, como buckets do Cloud Storage, conjuntos de dados do BigQuery e tabelas do BigQuery.

Um lake pode incluir uma ou mais zonas. Embora uma zona só possa fazer parte de um lago, ela pode conter recursos que apontam para recursos que fazem parte de projetos fora do projeto pai.

É possível selecionar configurações para uma zona no Dataplex. É possível escolher entre dois tipos de zonas: as brutas e as selecionadas.

Zonas brutas

Zonas brutas armazenam dados estruturados, dados semiestruturados, como arquivos CSV e JSON, e dados não estruturados em qualquer formato de fontes externas. Isso é útil para preparar dados brutos antes de realizar qualquer transformação. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

As zonas brutas são compatíveis com a granularidade no nível do bucket ou do conjunto de dados para permissões de leitura e gravação. Para mais informações, consulte IAM e controle de acesso.

Não há restrições quanto ao tipo de dados que podem ser armazenados em zonas brutas.

Zonas selecionadas

As zonas selecionadas armazenam dados estruturados. Os dados podem ser armazenados em buckets do Cloud Storage ou conjuntos de dados do BigQuery.

Os formatos compatíveis com os buckets do Cloud Storage incluem Parquet, Avro e ORC. Isso é útil para preparar dados que exigem processamento antes de serem usados para análise ou para exibir dados prontos para análise.

Para tabelas do BigQuery, você precisa ter um esquema bem definido e partições no estilo Hive. Quando você fornece um esquema para uma determinada tabela em uma zona selecionada, os dados precisam estar em conformidade com o esquema definido para a tabela sem desvio.

Isso significa que os dados precisam ser compatíveis com o esquema definido para a tabela e as novas partições não podem ter um esquema em conflito com o esquema da tabela.

As zonas selecionadas são compatíveis com granularidade no nível do bucket do Cloud Storage ou do conjunto de dados do BigQuery para permissões de leitura e gravação. Para mais informações, consulte Controle de acesso com o IAM.

Antes de começar

Antes de adicionar zonas a um lake, é preciso ter um lake. Crie um lake caso ainda não tenha feito isso.

A maioria dos comandos gcloud lake requer um local. Para especificar o local, defina o parâmetro --location.

Controle de acesso

  • Para adicionar uma zona, você precisa ter papéis do IAM que contenham a permissão dataplex.lakes.create do IAM. O papel específico roles/dataplex.admin do Dataplex pode ser usado para conceder permissões add.

Para mais informações, consulte Controle de acesso do Dataplex com IAM.

Adicionar uma zona

É possível criar e adicionar uma nova zona a um lake atual emitindo o método lakes.zones.create da API Dataplex ou adicionando uma zona ao console do Google Cloud.

É possível adicionar várias zonas ao lake. É possível adicionar uma zona por vez, mas ainda usar o lake enquanto a zona estiver sendo criada.

Console

  1. No console do Google Cloud, acesse o Dataplex:

    Acessar o Dataplex

  2. Navegue até a visualização Gerenciar.

  3. Na visualização Gerenciar, clique no nome do lake em que você quer adicionar uma zona.

  4. Na guia Zonas, clique em Adicionar zona.

  5. Digite um Nome de exibição para a zona.

  6. Clique na lista suspensa Tipo. Escolha Raw Zone ou Curated Zone. Saiba mais sobre os tipos de zona compatíveis.

  7. Opcional: insira uma descrição.

  8. Em Locais de dados, selecione Regional ou Multirregional. O que você escolher não poderá ser alterado depois. Os dados de região única e multirregional não podem ser combinados na mesma zona.

  9. Opcional: ative a descoberta de metadados, que permite que o Dataplex verifique e extraia automaticamente metadados dos dados na sua zona:

    1. Clique em Configurações de descoberta.

    2. Verifique se a opção Ativar descoberta de metadados está selecionada.

    3. Opcional: em Incluir padrões, liste os arquivos a serem incluídos nas verificações de descoberta.

    4. Opcional: em Excluir padrões, liste os arquivos a serem excluídos nas verificações de descoberta. Se você inserir padrões de inclusão e exclusão, os padrões de exclusão serão aplicados primeiro.

    5. Clique no menu suspenso Repetições e selecione uma frequência.

    6. Clique no menu suspenso Fuso horário e selecione um fuso horário.

    7. Se, em Repetições, você tiver selecionado Personalizado, em Programação, insira uma programação de job. Caso contrário, o valor de Programação será preenchido automaticamente.

  10. Clique em Criar.

A criação da zona pode levar alguns minutos.

REST

Siga as instruções da API para adicionar uma zona usando o APIs Explorer.

Quando a criação da zona é bem-sucedida, a zona entra automaticamente no estado ativo. Se falhar, o lake será revertido para o estado anterior.

Depois de criar a zona, é possível mapear os dados armazenados nos buckets do Cloud Storage e os conjuntos de dados do BigQuery como recursos na zona.

A seguir