Glossário do Dataplex

O Dataplex unifica a jornada completa da análise com um gerenciamento centralizado de dados e serviços. Este glossário espera definir os termos usados no sistema de gerenciamento.

Lista de glossários

Ação

Problemas acionáveis do usuário. Exemplo:

  • A propagação da política de segurança falhou devido a um grupo de segurança inexistente fornecido pelo usuário.
  • Um recurso gerenciado não pode ser acessado pelo Dataplex.
  • O job de descoberta falhou por vários motivos, que podem ser corrigidos pelo usuário. Isso pode ocorrer devido a problemas de dados do usuário, como formatos de dados inválidos, esquema incompatível entre partições ou nomenclatura de partição inconsistente etc.

As ações são geradas automaticamente pelo Dataplex. Algumas ações são apagadas automaticamente pelo Dataplex quando o problema subjacente é detectado como resolvido pelo usuário. Outras ações precisam ser explicitamente marcadas como resolvidas pelo usuário.

Por exemplo, depois que as ações de descoberta são tratadas pelo usuário, ele precisa chamar a API Dataplex para marcar as ações como resolvidas para que o sistema de descoberta possa retomar e programar uma execução imediata de descoberta.

Recurso

O recurso representa um único recurso gerenciado (bucket/conjunto de dados) no Dataplex. Ele também é um marcador de posição para várias configurações do recurso gerenciado e dos subsistemas (descoberta, administração de políticas etc.) que atuam nele.

BigQuery

O BigQuery é o data warehouse de análise totalmente gerenciado, em escala de petabytes e econômico do Google Cloud, que permite executar análises de grandes quantidades de dados quase em tempo real.

Com o BigQuery, não há infraestrutura para configurar ou gerenciar, permitindo que você se concentre em gerar insights significativos com o SQL padrão e aproveitar modelos de preços flexíveis em opções sob demanda e de taxa fixa. Saiba mais

Dados

Dados do usuário em um recurso gerenciado. Por exemplo, objetos do Cloud Storage em um bucket ou linhas da tabela do BigQuery em um conjunto de dados. No caso do Cloud Storage, os objetos são unidades imutáveis de dados do usuário. No caso de um conjunto de dados do BigQuery, as linhas dentro das tabelas filhas são consideradas dados do usuário.

Data Catalog

O Data Catalog é um serviço de gerenciamento de metadados totalmente gerenciado e escalonável que permite que as organizações descubram, gerenciem e entendam rapidamente todos os dados no Google Cloud. Saiba mais

Conta de serviço do Dataplex

Representa uma conta de serviço do Google Cloud gerenciada internamente que realiza várias ações em nome do Dataplex. Por exemplo, as credenciais da conta de serviço são usadas pelo sistema de descoberta, pelo sistema de administração de políticas etc.

A conta de serviço precisa de várias permissões do IAM em projetos e recursos gerenciados pelo usuário para executar o job. Alguns são concedidos automaticamente como parte da ativação do Dataplex em um projeto. Outros (por exemplo, anexar um bucket de um projeto diferente) precisam ser concedidos manualmente pelo usuário.

Dataproc Metastore

O Dataproc Metastore é um serviço de metastore totalmente gerenciado, altamente disponível, com escalonamento automático e nativo de OSS que simplifica muito o gerenciamento técnico de metadados. O serviço Metastore do Dataproc é baseado no metastore do Apache Hive e serve como um componente essencial para data lakes empresariais. Saiba mais

Discovery

Subsistema responsável por rastrear os dados do usuário e extrair metadados.

Grupo de entradas

Um grupo de entradas contém entradas. Um grupo de entradas é um conjunto de entradas logicamente relacionadas junto com as políticas de Gerenciamento de identidade e acesso que especificam os usuários que podem criar, editar e visualizar entradas em um grupo de entradas.

Conjunto de arquivos

Um conjunto de arquivos é uma entrada dentro de um grupo de entradas criado pelo usuário. Um conjunto de arquivos é definido por um ou mais padrões de arquivo que especificam um conjunto de um ou mais arquivos do Cloud Storage. As entradas do conjunto de arquivos podem ser usadas para organizar e descobrir arquivos do Cloud Storage, além de adicionar metadados a eles.

Lake

Um lake é um repositório centralizado para gerenciar dados corporativos em toda a organização, distribuído em muitos projetos de nuvem e armazenado em vários serviços de armazenamento, como o Cloud Storage e o BigQuery. Os recursos anexados a um lake são chamados de recursos gerenciados. Os dados nesses recursos gerenciados podem ser estruturados ou não.

Um lake oferece aos administradores de dados ferramentas para organizar, proteger e gerenciar dados em escala, além de proporcionar aos cientistas e engenheiros de dados uma experiência integrada para pesquisar, descobrir, analisar e transformar facilmente os dados e os metadados associados.

Registros

Registros do Stackdriver fornecidos pelo Dataplex que os usuários podem usar para ter insights sobre o funcionamento do lake, realizar depuração, definir alertas etc. Por exemplo, registros que:

  • Mostrar ações que precisam de atenção
  • Mostrar alterações de metadados
  • Mostrar um resumo das execuções de job
  • Ações da tarefa de descoberta de superfície (arquivos lidos, gravados etc.)

Metadados

Informações extraídas dos dados do usuário pelo sistema de descoberta. Por exemplo, nome do bucket do Cloud Storage, propriedades do conjunto de dados do BigQuery, esquema de tabelas filhas do BigQuery etc.

Há dois tipos de metadados:

  • Metadados técnicos, como esquema
  • Metadados operacionais, como estatísticas de dados (contagem total de objetos e tamanho no Cloud Storage)

Métricas

Elas representam as métricas do Stackdriver expostas como uma API pública pelo Dataplex, que podem ser usadas pelos usuários para configurar alertas do Stackdriver ou visualizar por meio de gráficos. Consulte Cloud Monitoring do Dataplex para mais informações sobre métricas específicas do Dataplex.

Propagação

Mudar determinadas configurações de recursos inicia um processo assíncrono em segundo plano para reconciliar o estado dos recursos gerenciados com o que o usuário especificou. Por exemplo, a configuração de segurança especificada em um lake precisa ser propagada para a política do IAM de possivelmente milhares de recursos gerenciados (buckets/conjuntos de dados) nesse lake. Isso não acontece imediatamente quando a API é invocada. Esse processo é chamado de propagação.

O status da propagação será refletido pelos campos de status relevantes, e os erros serão exibidos por meio de ações.

Recurso

Recurso do Dataplex

Recursos do Google Cloud definidos pelo serviço do Dataplex, como lake, zona de dados e recurso.

Recurso filho

Filho de um recurso gerenciado. Por exemplo, objetos do Cloud Storage ou tabela/rotina/modelos do BigQuery. A administração da política de recursos filhos não é feita diretamente pelo Dataplex. No entanto, a política efetiva é influenciada pelo que é herdado do pai.

Recurso gerenciado

Recursos do Google Cloud que podem ser administrados e descobertos pelo Dataplex. Atualmente, buckets do Cloud Storage e conjuntos de dados do BigQuery. Um recurso gerenciado pode pertencer a um projeto diferente do lake, mas precisa pertencer à mesma organização.

Especificações

Especificação fornecida pelo usuário. Exemplo:

  • A especificação de segurança especifica a configuração de segurança para lake/zone/asset.
  • A especificação de um recurso define um ponteiro para o recurso gerenciado (bucket/conjunto de dados).
  • A especificação de descoberta especifica a configuração de descoberta de um recurso.

Status

Representa o status da especificação fornecida pelo usuário. Por exemplo:

  • O status de segurança representa o status da propagação da política de segurança (como uma especificação de segurança) para os buckets/conjuntos de dados subjacentes.
  • O status do recurso representa o status do recurso gerenciado (ok / não encontrado / permissão negada etc.), que é especificado na especificação do recurso.
  • O status da descoberta representa o status do job de descoberta, que é orientado por especificações de descoberta.

Tabela

Tabela lógica (linhas e colunas) com um esquema bem definido (nomes e tipos de coluna) que é apoiado pelos dados (ou subconjunto deles) em um recurso gerenciado. Por exemplo, uma tabela pode ter o suporte de um subconjunto de objetos do Cloud Storage em um bucket do Cloud Storage ou de uma tabela do BigQuery no conjunto de dados do BigQuery.

  • As tabelas como conceito de primeira classe são exibidas no Metastore do Dataproc, no Data Catalog e no BigQuery (registro de metadados). As tabelas não serão exibidas depois se a descoberta ou a publicação no sistema downstream não estiver ativada. Por exemplo, as tabelas descobertas nos dados do usuário no Cloud Storage não serão exibidas no BigQuery se a publicação no BigQuery não estiver ativada.
  • Descoberto pelo sistema de descoberta. não pode ser criado pelo usuário;
  • Os nomes das tabelas são gerados para serem curtos e significativos, para facilitar a consulta. Os nomes contêm três partes, [Prefix_]table root path[_Sequence number].

Zona

Um contêiner lógico de um ou mais recursos de dados criados em um lake. Uma zona de dados pode ser usada para modelar as unidades de negócios dentro de uma organização (por exemplo, vendas versus operações). As zonas de dados também modelam a jornada dos dados ou a prontidão para consumo.

Zona bruta

Uma zona de dados que contém dados que precisam de mais processamento antes de serem considerados geralmente prontos para consumo e cargas de trabalho de análise.

Zona selecionada

Uma zona de dados que contém dados considerados prontos para consumo e cargas de trabalho de análise mais amplos. Os dados estruturados selecionados armazenados no Cloud Storage precisam estar em conformidade com determinados formatos de arquivo (Parquet, Avro e ORC) e organizados em um layout de diretório compatível com o Hive.

A seguir