Glossário do Dataplex

O Dataplex unifica a jornada completa de análise com um gerenciamento centralizado de dados e serviços. Este glossário define os termos usados no sistema de gerenciamento.

Lista de glossários

Ação

Problemas úteis para o usuário. Exemplo:

  • A propagação da política de segurança falhou devido a um grupo de segurança inexistente fornecido pelo usuário.
  • Um recurso gerenciado não pode ser acessado pelo Dataplex.
  • O job de descoberta falhou por vários motivos (que podem ser corrigidos pelo usuário). Isso pode ocorrer devido a problemas nos dados do usuário, como formatos de dados inválidos, recursos esquema entre partições, nomenclatura de partição inconsistente etc.

As ações são geradas automaticamente pelo Dataplex. Algumas ações são limpos automaticamente pelo Dataplex quando o problema subjacente é detectado tenham sido resolvidos pelo usuário. Outras ações precisam ser explicitamente marcado como resolvido pelo usuário.

Por exemplo, depois que as ações de descoberta são realizadas pelo usuário, elas precisam chamar a API Dataplex para marcar as ações como resolvidas para que o sistema de descoberta possa retomar e programar uma execução de descoberta imediata.

Recurso

O recurso representa um único recurso gerenciado (bucket/conjunto de dados) em o Dataplex. Ele também é um marcador de posição para várias configurações do recurso gerenciado e dos subsistemas (detecção, administração de políticas etc.) que atuam nele.

BigQuery

O BigQuery é o data warehouse para análise totalmente gerenciado, em escala de petabyte e econômico do Google Cloud que permite executar análises em grandes volumes de dados quase em tempo real.

Com o BigQuery, não há infraestrutura para configurar ou gerenciar, permitindo que você se concentre em encontrar insights significativos com o SQL padrão e aproveitar modelos de preços flexíveis em opções sob demanda e de taxa fixa. Saiba mais

Dados

Dados do usuário em um recurso gerenciado. Por exemplo, os objetos do Cloud Storage de um bucket ou de uma tabela do BigQuery em um conjunto de dados. No caso do Cloud Storage, os objetos são unidades imutáveis de dados do usuário. No caso de um conjunto de dados do BigQuery, as linhas dentro das tabelas filhas são consideradas dados do usuário.

Data Catalog

O Data Catalog é um serviço de metadados escalonável e totalmente gerenciado que permite às organizações descobrir, entender e gerenciar rapidamente todos os dados no Google Cloud. Saiba mais

Conta de serviço do Dataplex

Representa um agente de serviço, um conta de serviço que executa várias ações em nome o Dataplex. Por exemplo, o sistema de descoberta e a política de administração de rede dependem do agente de serviço.

Várias permissões do IAM em recursos e projetos gerenciados pelo usuário são necessárias para que o agente de serviço execute a tarefa. Algumas são concedidas automaticamente como parte da ativação do Dataplex em um projeto. Outras permissões (por exemplo, anexar um bucket de um projeto diferente) precisam ser concedidas manualmente pelo usuário.

Dataproc Metastore

O metastore do Dataproc é um serviço de armazenamento virtual nativo do OSS, totalmente gerenciado, altamente disponível, com escalonamento automático e recuperação automática, que simplifica muito o gerenciamento de metadados técnicos. O serviço do Dataproc Metastore é baseado no metastore do Apache Hive e serve como um componente essencial para data lakes empresariais. Saiba mais

Discovery

Subsistema responsável por rastrear dados do usuário e extrair metadados.

Grupo de entradas

Um grupo de entradas contém entradas. Um grupo de entradas é um conjunto de entradas logicamente relacionadas junto com as políticas de Gerenciamento de identidade e acesso que especificam os usuários que podem criar, editar e visualizar entradas em um grupo de entradas.

Conjunto de arquivos

Um conjunto de arquivos é uma entrada em um grupo de entrada criado pelo usuário. Um conjunto de arquivos é definido por um ou mais padrões de arquivo que especificam um conjunto de um ou mais arquivos do Cloud Storage. As entradas do conjunto de arquivos podem ser usadas para organizar e descobrir arquivos do Cloud Storage, e adicionar metadados a eles.

Lake

Um lake é um repositório centralizado para gerenciar dados corporativos em toda a organização, distribuídos em vários projetos de nuvem e armazenados em vários serviços de armazenamento, como o Cloud Storage e o BigQuery. O os recursos anexados a um lake são chamados de recursos gerenciados. Os dados nesses recursos gerenciados podem ser estruturados ou não.

Um lake oferece aos administradores de dados ferramentas para organizar, proteger e gerenciar dados em escala, e fornece a cientistas e engenheiros de dados uma para pesquisar, descobrir, analisar e transformar facilmente dados e os metadados associados.

Registros

Registros do Stackdriver fornecidos pelo Dataplex que os usuários podem usar para ter insights sobre o funcionamento do lake, realizar a depuração, definir alertas etc. Por exemplo, registros que:

  • Mostrar ações que precisam de atenção
  • Mudanças nos metadados de exibição
  • Mostrar um resumo das execuções de jobs
  • Ações de jobs de descoberta de superfície (arquivos lidos, gravados etc.)

Metadados

Informações extraídas dos dados do usuário pelo sistema de descoberta. Por exemplo: nome do bucket do Cloud Storage, propriedades do conjunto de dados do BigQuery de tabelas filhas do BigQuery etc.

Há dois tipos de metadados:

  • Metadados técnicos, como esquema
  • Metadados operacionais, como estatísticas de dados (contagem total de objetos e tamanho no Cloud Storage)

Métrica

Elas representam métricas do Stackdriver que são expostas como API pública pelo Dataplex. que pode ser usado pelos usuários para configurar alertas do Stackdriver ou visualizar via gráficos. Consulte o Cloud Monitoring do Dataplex para mais informações sobre métricas específicas do Dataplex.

Propagação

A alteração de determinadas configurações de recursos inicia um processo assíncrono em segundo plano para reconciliar o estado dos recursos gerenciados com o que o usuário especificado. Por exemplo, a configuração de segurança especificada em um lake precisa ser propagada para a política do IAM de potencialmente milhares de recursos gerenciados (buckets/conjuntos de dados) nesse lake. Isso não acontece imediatamente quando a API é invocada. Esse processo é chamado de propagação.

O status da propagação será refletido nos campos de status relevantes, e os erros serão exibidos por ações.

Recurso

Recurso do Dataplex

Recursos do Google Cloud definidos pelo serviço do Dataplex, como lake, zona de dados e recurso.

Recurso filho

Filho de um recurso gerenciado. Por exemplo, objetos do Cloud Storage ou tabelas/rotinas/modelos do BigQuery. A administração da política de recursos filhos não é feita diretamente pelo Dataplex. No entanto, a política efetiva é influenciada pelo que é herdado do pai.

Recurso gerenciado

Recursos do Google Cloud que podem ser administrados e descobertos pelo Dataplex. Atualmente, buckets do Cloud Storage e conjuntos de dados do BigQuery. Um recurso gerenciado pode pertencer a um projeto diferente do lago, mas precisa pertencer à mesma organização.

Especificações

Especificação fornecida pelo usuário. Exemplo:

  • A especificação de segurança define a configuração de segurança para lake/zona/recurso.
  • A especificação de recurso de um recurso especifica um ponteiro para o recurso gerenciado (bucket/dataset).
  • As especificações de descoberta definem a configuração de descoberta de um recurso.

Status

Representa o status da especificação fornecida pelo usuário. Por exemplo:

  • O status de segurança representa o status da propagação da política de segurança (como uma especificação de segurança) aos buckets/conjuntos de dados subjacentes.
  • O status do recurso representa o status do recurso gerenciado (ok / não encontrado) / permissão negada etc.), que está definido na especificação do recurso.
  • O status da descoberta representa o status do job de descoberta, que é orientado por especificações de descoberta.

Tabela

Tabela lógica (linhas e colunas) com um esquema bem definido (nomes e tipos de colunas) com base em dados (ou um subconjunto deles) em um recurso gerenciado. Por exemplo, pode ter o suporte de um subconjunto de objetos do Cloud Storage em uma ou uma tabela do BigQuery no conjunto de dados desse produto.

  • As tabelas como conceito de primeira classe são exibidas no metastore do Dataproc, Data Catalog e BigQuery (registro de metadados). As tabelas não serão exibidas downstream se a descoberta ou publicação no o sistema downstream não está ativado. Por exemplo, tabelas descobertas pelo usuário os dados no Cloud Storage não serão exibidos ao BigQuery se a publicação no BigQuery não está ativada.
  • Descoberta pelo sistema de descoberta. Não pode ser criado pelo usuário.
  • Os nomes das tabelas são gerados para serem curtos e significativos, para que sejam fáceis consulta. Os nomes têm três partes, [Prefix_]table root path[_Sequence number].

Zona

Um contêiner lógico de um ou mais recursos de dados criados em um lake. Uma zona de dados pode ser usada para modelar as unidades de negócios em uma organização, por exemplo, vendas e operações. As zonas de dados também modelam a jornada de dados ou a prontidão para consumo.

Zona bruta

Uma zona de dados que contém dados que precisam de processamento adicional antes de serem considerados geralmente prontos para consumo e cargas de trabalho de análise.

Zona selecionada

Uma zona de dados que contém dados considerados prontos para cargas de trabalho de consumo e análise mais amplas. Dados estruturados selecionados armazenados em O Cloud Storage precisa estar em conformidade com determinados formatos de arquivo (Parquet, Avro e ORC) e organizados em um layout de diretório compatível com o Hive.

A seguir