O Dataplex unifica a jornada completa de análise com um gerenciamento centralizado de dados e serviços. Este glossário define os termos usados no sistema de gerenciamento.
Lista de glossários
Ação
Problemas úteis para o usuário. Exemplo:
- A propagação da política de segurança falhou devido a um grupo de segurança inexistente fornecido pelo usuário.
- Um recurso gerenciado não pode ser acessado pelo Dataplex.
- O job de descoberta falhou por vários motivos (que podem ser corrigidos pelo usuário). Isso pode ser devido a problemas com os dados do usuário, como formatos de dados inválidos, esquema incompatível entre partições ou nomeação de partição inconsistente etc.
As ações são geradas automaticamente pelo Dataplex. Algumas ações são limpadas automaticamente pelo Dataplex quando o problema subjacente é detectado como resolvido pelo usuário. Outras ações precisam ser marcadas explicitamente como resolvidas pelo usuário.
Por exemplo, depois que as ações de descoberta são resolvidas pelo usuário, elas precisam chamar a API Dataplex para marcar as ações como resolvidas para que o sistema de descoberta possa retomar e programar uma execução de descoberta imediata.
Recurso
O recurso representa um único recurso gerenciado (bucket/dataset) no Dataplex. Ele também é um marcador de posição para várias configurações do recurso gerenciado e dos subsistemas (detecção, administração de políticas etc.) que atuam nele.
BigQuery
O BigQuery é o data warehouse para análise totalmente gerenciado, em escala de petabyte e econômico do Google Cloud que permite executar análises em grandes volumes de dados quase em tempo real.
Com o BigQuery, não há infraestrutura para configurar ou gerenciar, permitindo que você se concentre em encontrar insights significativos com o SQL padrão e aproveitar modelos de preços flexíveis em opções sob demanda e de taxa fixa. Saiba mais
Dados
Dados do usuário em um recurso gerenciado. Por exemplo, objetos do Cloud Storage em um bucket ou linhas de tabela do BigQuery em um conjunto de dados. No caso do Cloud Storage, os objetos são unidades imutáveis de dados do usuário. No caso de um conjunto de dados do BigQuery, as linhas dentro das tabelas filhas são consideradas dados do usuário.
Data Catalog
O Data Catalog é um serviço de metadados escalonável e totalmente gerenciado que permite às organizações descobrir, entender e gerenciar rapidamente todos os dados no Google Cloud. Saiba mais
Conta de serviço do Dataplex
Representa um agente de serviço, um tipo de conta de serviço que executa várias ações em nome do Dataplex. Por exemplo, o sistema de descoberta e o sistema de administração de políticas dependem do agente de serviço.
Várias permissões do IAM em recursos e projetos gerenciados pelo usuário são necessárias para que o agente de serviço realize o trabalho. Alguns são concedidos automaticamente como parte da ativação do Dataplex em um projeto. Outros (por exemplo, anexar um bucket de um projeto diferente) precisam ser concedidos manualmente pelo usuário.
Dataproc Metastore
O metastore do Dataproc é um serviço de armazenamento virtual nativo do OSS, totalmente gerenciado, altamente disponível, com escalonamento automático e recuperação automática, que simplifica muito o gerenciamento de metadados técnicos. O serviço do Dataproc Metastore é baseado no metastore do Apache Hive e serve como um componente essencial para data lakes empresariais. Saiba mais
Discovery
Subsistema responsável por rastrear dados do usuário e extrair metadados.
Grupo de entradas
Um grupo de entradas contém entradas. Um grupo de entradas é um conjunto de entradas logicamente relacionadas junto com as políticas de Gerenciamento de identidade e acesso que especificam os usuários que podem criar, editar e visualizar entradas em um grupo de entradas.
Conjunto de arquivos
Um conjunto de arquivos é uma entrada em um grupo de entrada criado pelo usuário. Um conjunto de arquivos é definido por um ou mais padrões de arquivo que especificam um conjunto de um ou mais arquivos do Cloud Storage. As entradas de conjunto de arquivos podem ser usadas para organizar e descobrir arquivos do Cloud Storage e adicionar metadados a eles.
Lake
Um lake é um repositório centralizado para gerenciar dados corporativos em toda a organização, distribuídos em vários projetos de nuvem e armazenados em vários serviços de armazenamento, como o Cloud Storage e o BigQuery. Os recursos associados a um lago são chamados de recursos gerenciados. Os dados nesses recursos gerenciados podem ser estruturados ou não.
Um data lake oferece aos administradores de dados ferramentas para organizar, proteger e gerenciar os dados em grande escala, além de oferecer aos cientistas e engenheiros de dados uma experiência integrada para pesquisar, descobrir, analisar e transformar dados e metadados associados.
Registros
Registros do Stackdriver fornecidos pelo Dataplex que os usuários podem usar para ter insights sobre o funcionamento do lake, realizar a depuração, definir alertas etc. Por exemplo, registros que:
- Mostrar ações que precisam de atenção
- Mostrar mudanças nos metadados
- Mostrar um resumo das execuções de jobs
- Ações de jobs de descoberta da superfície (arquivos lidos, gravados etc.)
Metadados
Informações extraídas dos dados do usuário pelo sistema de descoberta. Por exemplo, o nome do bucket do Cloud Storage, as propriedades do conjunto de dados do BigQuery, o esquema das tabelas filhas do BigQuery etc.
Há dois tipos de metadados:
- Metadados técnicos, como esquema
- Metadados operacionais, como estatísticas de dados (contagem e tamanho total de objetos no Cloud Storage)
Métricas
As métricas representam métricas do Stackdriver que são expostas como API pública pelo Dataplex. Elas podem ser usadas pelos usuários para configurar alertas do Stackdriver ou visualizar em gráficos. Consulte o Cloud Monitoring do Dataplex para mais informações sobre métricas específicas do Dataplex.
Propagação
A mudança de determinadas configurações de recursos inicia um processo em segundo plano e assíncrono para reconciliar o estado dos recursos gerenciados com o que o usuário especificou. Por exemplo, a configuração de segurança especificada em um lake precisa ser propagada para a política do IAM de potencialmente milhares de recursos gerenciados (buckets/conjuntos de dados) nesse lake. Isso não acontece imediatamente quando a API é invocada. Esse processo é chamado de propagação.
O status da propagação será refletido nos campos de status relevantes, e os erros serão exibidos por ações.
Recurso
Recurso do Dataplex
Recursos do Google Cloud definidos pelo serviço do Dataplex, como lake, zona de dados e recurso.
Recurso filho
Filho de um recurso gerenciado. Por exemplo, objetos do Cloud Storage ou tabela/rotina/modelos do BigQuery. A administração da política de recursos filhos não é feita diretamente pelo Dataplex. No entanto, a política efetiva é influenciada pelo que é herdado do pai.
Recurso gerenciado
Recursos do Google Cloud que podem ser administrados e descobertos pelo Dataplex. Atualmente, buckets do Cloud Storage e conjuntos de dados do BigQuery. Um recurso gerenciado pode pertencer a um projeto diferente do lago, mas precisa pertencer à mesma organização.
Especificações
Especificação fornecida pelo usuário. Exemplo:
- A especificação de segurança especifica a configuração de segurança para o lago/zona/ativo.
- A especificação de recurso de um recurso especifica um ponteiro para o recurso gerenciado (bucket/dataset).
- A especificação de descoberta especifica a configuração de descoberta de um recurso.
Status
Representa o status da especificação fornecida pelo usuário. Por exemplo:
- O status de segurança representa o status da propagação da política de segurança (como uma especificação de segurança) para os buckets/conjuntos de dados subjacentes.
- O status do recurso representa o status do recurso gerenciado (ok / não encontrado / permissão negada etc.), que é especificado na especificação do recurso.
- O status da descoberta representa o status do job de descoberta, que é orientado por especificações de descoberta.
Tabela
Tabela lógica (linhas e colunas) com um esquema bem definido (nomes e tipos de colunas) que é respaldado por dados (ou subconjunto deles) em um recurso gerenciado. Por exemplo, uma tabela pode ser apoiada por um subconjunto de objetos do Cloud Storage em um bucket do Cloud Storage ou uma tabela do BigQuery no conjunto de dados do BigQuery.
- As tabelas como conceito de primeira classe são exibidas no metastore do Dataproc, no Data Catalog e no BigQuery (registro de metadados). As tabelas não serão exibidas downstream se a descoberta ou publicação no sistema downstream não estiver ativada. Por exemplo, as tabelas descobertas com base nos dados do usuário no Cloud Storage não serão exibidas no BigQuery se a publicação no BigQuery não estiver ativada.
- Descoberta pelo sistema de descoberta. Não pode ser criado pelo usuário.
- Os nomes das tabelas são gerados para serem curtos e significativos, para que sejam fáceis de
consultar. Os nomes têm três partes,
[Prefix_]table root path[_Sequence number]
.
Zona
Um contêiner lógico de um ou mais recursos de dados criados em um lago. Uma zona de dados pode ser usada para modelar as unidades de negócios em uma organização, por exemplo, vendas e operações. As zonas de dados também modelam a jornada de dados ou a prontidão para consumo.
Zona bruta
Uma zona de dados que contém dados que precisam de processamento adicional antes de serem considerados geralmente prontos para consumo e cargas de trabalho de análise.
Zona selecionada
Uma zona de dados que contém dados considerados prontos para cargas de trabalho de consumo e análise mais amplas. Os dados estruturados selecionados armazenados no Cloud Storage precisam estar em conformidade com determinados formatos de arquivo (Parquet, Avro e ORC) e organizados em um layout de diretório compatível com o Hive.
A seguir
- Saiba mais sobre o Dataplex.
- Saiba mais sobre o guia de início rápido.