Glossário do Dataplex

O Dataplex unifica a jornada de análise de ponta a ponta com uma gerenciamento centralizado de dados e serviços. Este glossário espera definir termos no sistema de gerenciamento.

Lista de glossários

Ação

Problemas acionáveis do usuário. Exemplo:

  • Falha na propagação da política de segurança devido a um grupo de segurança inexistente fornecidas pelo usuário.
  • Um recurso gerenciado não pode ser acessado pelo Dataplex.
  • O job de descoberta falhou por vários motivos (que podem ser corrigidos pelo usuário). Isso pode ocorrer devido a problemas nos dados do usuário, como formatos de dados inválidos, recursos esquema entre partições, nomenclatura de partição inconsistente etc.

As ações são geradas automaticamente pelo Dataplex. Algumas ações são limpos automaticamente pelo Dataplex quando o problema subjacente é detectado tenham sido resolvidos pelo usuário. Outras ações precisam ser explicitamente marcado como resolvido pelo usuário.

Por exemplo, depois que as ações de descoberta forem realizadas e cuidados pelo usuário, devem chamar a API Dataplex para marcar a resolvidas para que o sistema de descoberta retome e programe uma e a execução de descoberta imediata.

Recurso

O recurso representa um único recurso gerenciado (bucket/conjunto de dados) em o Dataplex. Ele também é um marcador de posição para várias configurações de o recurso e os subsistemas gerenciados (descoberta, administração de políticas etc.) que atuam com base nisso.

BigQuery

O BigQuery é a solução totalmente gerenciada, em escala de petabytes econômico e econômico que permite executar análises em quantidades de dados quase em tempo real.

Com o BigQuery, não há configurar ou gerenciar, permitindo que você se concentre em encontrar insights usando SQL padrão e aproveitando modelos de preços flexíveis em opções sob demanda ou de taxa fixa. Saiba mais

Dados

Dados do usuário em um recurso gerenciado. Por exemplo, os objetos do Cloud Storage de um bucket ou de uma tabela do BigQuery em um conjunto de dados. No caso do Cloud Storage, Os objetos são unidades imutáveis de dados do usuário. No caso de uma operação do BigQuery conjunto de dados, as linhas dentro das tabelas filhas serão consideradas dados do usuário.

Data Catalog

O Data Catalog é um serviço de gerenciamento de metadados escalonável e totalmente gerenciado que permite que as organizações descubram, gerenciem e entendam rapidamente todos os dados dela no Google Cloud. Saiba mais

Conta de serviço do Dataplex

Representa um agente de serviço, um conta de serviço que executa várias ações em nome o Dataplex. Por exemplo, o sistema de descoberta e a política de administração de rede dependem do agente de serviço.

Várias permissões do IAM em projetos e recursos gerenciados pelo usuário são que o agente de serviço precisa para realizar o trabalho dele. Algumas são concedidas automaticamente como parte da ativação do Dataplex em um projeto. Outros (por exemplo, anexar um bucket de um projeto diferente) precisam ser concedidas manualmente pelo usuário.

Dataproc Metastore

O metastore do Dataproc é um serviço de armazenamento recuperação automática, um serviço de metastore nativo de OSS que simplifica muito as gerenciamento de metadados. O serviço Metastore do Dataproc é baseado O metastore Apache Hive e serve como um componente essencial para empresas e data lakes. Saiba mais

Discovery

Subsistema responsável por rastrear dados do usuário e extrair metadados.

Grupo de entradas

Um grupo de entradas contém entradas. Um grupo de entradas é um conjunto de entradas logicamente relacionadas junto com as políticas de Gerenciamento de identidade e acesso que especificam os usuários que podem criar, editar e visualizar entradas em um grupo de entradas.

Conjunto de arquivos

Um conjunto de arquivos é uma entrada em um grupo de entradas criado pelo usuário. Um conjunto de arquivos é definido por um ou mais padrões de arquivo que especificam um conjunto de um ou mais Cloud Storage . As entradas do conjunto de arquivos podem ser usadas para organizar e descobrir arquivos do Cloud Storage, e adicionar metadados a eles.

Lake

Um lake é um repositório centralizado para gerenciar dados corporativos em toda a distribuído entre muitos projetos na nuvem e armazenados em vários de serviços de armazenamento, como o Cloud Storage e o BigQuery. O os recursos anexados a um lake são chamados de recursos gerenciados. Os dados nessas os recursos gerenciados podem ser estruturados ou não.

Um lake oferece aos administradores de dados ferramentas para organizar, proteger e gerenciar dados em escala, e fornece aos cientistas e engenheiros de dados uma experiência para pesquisar, descobrir, analisar e transformar facilmente dados e os metadados associados.

Registros

Registros do Stackdriver fornecidos pelo Dataplex que os usuários podem usar para insights sobre o funcionamento do lake, realizar depuração, definir alertas etc. Por exemplo, os registros que:

  • Mostrar ações que precisam de atenção
  • Mudanças nos metadados de exibição
  • Mostrar um resumo das execuções de jobs
  • Ações do job de descoberta de superfície (arquivos lidos, gravados etc.)

Metadados

Informações extraídas dos dados do usuário pelo sistema de descoberta. Por exemplo: nome do bucket do Cloud Storage, propriedades do conjunto de dados do BigQuery de tabelas filhas do BigQuery etc.

Há dois tipos de metadados:

  • Metadados técnicos, como esquema
  • Metadados operacionais, como estatísticas de dados (contagem total de objetos e tamanho no Cloud Storage)

Métrica

Elas representam métricas do Stackdriver que são expostas como API pública pelo Dataplex. que pode ser usado pelos usuários para configurar alertas do Stackdriver ou visualizar via gráficos. Consulte o Cloud Monitoring do Dataplex para mais informações sobre métricas específicas do Dataplex.

Propagação

A alteração de determinadas configurações de recursos inicia uma configuração assíncrona para reconciliar o estado dos recursos gerenciados com o que o usuário especificado. Por exemplo, a configuração de segurança especificada em um lake precisa ser propagada para a política do IAM de milhares de recursos gerenciados (buckets/datasets) no lake. Isso não acontece imediatamente quando a API é invocado. Esse processo é chamado de propagação.

O status da propagação será refletido pelo campos de status e erros serão exibidos por meio de ações.

Recurso

Recurso do Dataplex

Recursos do Google Cloud definidos pelo serviço do Dataplex, como lake, zona de dados e ativo.

Recurso filho

Filho de um recurso gerenciado. Por exemplo, os objetos do Cloud Storage ou o BigQuery tabela/rotina/modelos. A administração da política de recursos filhos não é feita diretamente pelo Dataplex. No entanto, a política efetiva é influenciada pelo que é herdado do pai.

Recurso gerenciado

Recursos do Google Cloud que podem ser administrados e descobertos com o Dataplex. No momento, os buckets do Cloud Storage e os conjuntos de dados do BigQuery. Um um recurso gerenciado pode pertencer a um projeto diferente do lake, mas devem pertencer à mesma organização.

Especificações

Especificação fornecida pelo usuário. Exemplo:

  • A especificação de segurança define a configuração de segurança para lake/zona/recurso.
  • A especificação de um recurso define um ponteiro para o recurso gerenciado (bucket/conjunto de dados).
  • As especificações de descoberta definem a configuração de descoberta de um recurso.

Status

Representa o status da especificação fornecida pelo usuário. Por exemplo:

  • O status de segurança representa o status da propagação da política de segurança (como uma especificação de segurança) aos buckets/conjuntos de dados subjacentes.
  • O status do recurso representa o status do recurso gerenciado (ok / não encontrado) / permissão negada etc.) que está especificado na especificação do recurso.
  • O status de descoberta representa o status do job de descoberta, que é conduzido segundo as especificações de descoberta.

Tabela

Tabela lógica (linhas e colunas) com um esquema bem definido (nomes e tipos de colunas) com base em dados (ou um subconjunto deles) em um recurso gerenciado. Por exemplo, pode ter o suporte de um subconjunto de objetos do Cloud Storage em uma ou uma tabela do BigQuery no conjunto de dados desse produto.

  • As tabelas são um conceito de primeira classe, mostradas no metastore do Dataproc, Data Catalog e BigQuery (registro de metadados). As tabelas não serão exibidas downstream se a descoberta ou publicação no o sistema downstream não está ativado. Por exemplo, tabelas descobertas pelo usuário os dados no Cloud Storage não serão exibidos ao BigQuery se a publicação no BigQuery não está ativada.
  • Detectado pelo sistema de descoberta. Não pode ser criada pelo usuário.
  • Os nomes das tabelas são gerados para serem curtos e significativos, para que sejam fáceis consulta. Os nomes contêm três partes, [Prefix_]table root path[_Sequence number].

Zona

Um contêiner lógico de um ou mais recursos de dados criados em um lake. Uma zona de dados podem ser usados para modelar as unidades de negócios dentro de uma organização (por exemplo, vendas x operações). As zonas de dados também modelam a jornada de dados ou a prontidão para consumo.

Zona bruta

Uma zona de dados que contém dados que precisam de mais processamento antes que sejam considerados geralmente prontos para cargas de trabalho de análise e consumo.

Zona selecionada

Uma zona de dados que contém dados considerados prontos para um serviço mais amplo cargas de trabalho de análise e consumo. Dados estruturados selecionados armazenados em O Cloud Storage precisa estar em conformidade com determinados formatos de arquivo (Parquet, Avro e ORC) e organizados em um layout de diretório compatível com o Hive.

A seguir