Conceitos de malha de dados

Antes de explorar o guia detalhado sobre a implementação da malha de dados com o Google Cloud Cortex Framework, esta página fornece uma base sobre como os conceitos relevantes da malha de dados são geralmente implementados num Google Cloud produto e especificamente com o contexto do Cortex Framework. Depois de compreender os conceitos da malha de dados, consulte o manual do utilizador da malha de dados para a base de dados do framework Cortex.

Dataplex Universal Catalog

A tabela seguinte define os conceitos de malha de dados no catálogo universal do Dataplex:

Conceito Descrição Contexto da framework Cortex
Lago Unidade de nível superior para organizar dados numa malha de dados. Faça a gestão do catálogo universal do Dataplex – lagos. Uma origem de dados, por exemplo, SAP ECC, Salesforce, Google Ads.
Zona Unidade de segundo nível para organizar dados num Lake. Camadas de processamento específicas numa origem de dados, como dados não processados versus CDC.
Recurso do catálogo universal do Dataplex Referência a dados armazenados no Cloud Storage ou no BigQuery associados a uma zona. Isto é uma referência ao recurso de dados e não aos dados em si. Referência a conjuntos de dados do BigQuery registados em zonas.
Etiqueta Pares de chave-valor arbitrários que podem ser aplicados a lagos ou zonas. Etiquete lagos ou zonas inteiros (em vez de tabelas ou colunas) com metadados que podem ser vistos no catálogo universal do Dataplex ou usados para aplicações personalizadas.
Catálogo de dados Metadados técnicos da empresa que podem ser usados para ajudar a descobrir, compreender ou gerir recursos de dados num armazém. Anotar tabelas ou colunas (em vez de lagos ou zonas) com etiquetas de metadados avançadas que podem ser usadas na pesquisa do catálogo universal do Dataplex ou em aplicações personalizadas.
Modelos de etiquetas de catálogos Um modelo que define os campos disponíveis e os respetivos tipos numa etiqueta. Faça a gestão de modelos de etiquetas do catálogo universal do Dataplex Defina um conjunto de modelos para utilizações como: Etiquetar recursos de dados com linhas de negócio.
Etiqueta de catálogo Um conjunto de campos e os respetivos valores que contêm metadados aplicáveis a uma tabela ou coluna. Uma instância de um modelo de etiqueta. Anotar uma tabela ou uma coluna com valores de metadados relevantes para esse recurso, como uma linha de negócio específica.
Glossário do catálogo Um dicionário de termos que podem ser definidos e associados a colunas do BigQuery. Faça a gestão do catálogo universal do Dataplex – Glossários. Defina termos ou acrónimos usados nos recursos do BigQuery. Tenha em atenção que isto está planeado para o futuro e não é suportado.
Origem dos dados Um gráfico que representa as dependências de recursos do BigQuery. Estes não são definidos pela Cortex Data Mesh, mas são uma ferramenta relevante do catálogo universal do Dataplex para ajudar os utilizadores a descobrir origens de dados de recursos do BigQuery.
Evento de linhagem Um ponto no tempo em que ocorreu uma operação para mover dados entre recursos do BigQuery. Contém uma lista de links. Criado automaticamente para operações suportadas do BigQuery e Composer.
Link de linhagem Uma aresta que representa os dados que fluem de um recurso de origem para um recurso de destino como parte de um evento de linhagem. Pode ser analisado para suportar exemplos de utilização além dos gráficos de visualização da linhagem apresentados na consola.

BigQuery

A tabela seguinte define os conceitos de malha de dados no BigQuery:

Conceito Descrição Contexto da framework Cortex
Taxonomia de políticas Uma hierarquia de etiquetas de políticas. Faça a gestão das etiquetas de políticas do BigQuery. Organize as etiquetas de políticas relacionadas que podem ser usadas para o controlo de acesso numa hierarquia com autorizações herdadas.
Etiqueta de política Uma etiqueta aplicada a colunas específicas numa tabela ou vista do BigQuery. As etiquetas de políticas podem ser aplicadas a qualquer nível na hierarquia. Só é possível aplicar uma etiqueta de política a uma coluna específica. Anotar colunas com etiquetas que são usadas para o controlo de acesso ao nível da coluna. Os principais na etiqueta de política definem os leitores "Detalhada" ou "Sem máscara" que podem ver os dados das colunas não processados.
Política de Dados Políticas aplicadas a uma etiqueta de política que definem como e quem pode ver os dados de colunas ocultados. Os principais na política de dados definem os "leitores com máscara" que podem ver os dados da coluna com máscara. Qualquer pessoa que não tenha privilégios de leitor ocultos ou não ocultos não pode consultar a coluna.
Regra de ocultação Regras aplicadas a uma política de dados que definem como os dados são ocultados, por exemplo, através da aplicação de hash, da apresentação de um valor predefinido, dos últimos quatro carateres e outros. Aplicado em função da situação a colunas sensíveis.
Política de acesso ao nível da linha Declarações SQL que definem que grupos podem consultar linhas em tabelas com base em valores de colunas específicos. Usado para o controlo de acesso ao nível da linha quando o controlo ao nível do recurso e da coluna é insuficiente.

Conceito de malha de dados do Cortex

A tabela seguinte define conceitos específicos da arquitetura de malha de dados no Cortex Framework:

Conceito Descrição Contexto da framework Cortex
Recurso de metadados Entidades de metadados que podem ser reutilizadas em vários recursos do BigQuery. Alguns exemplos são os lagos, os modelos de etiquetas de catálogos e as taxonomias de políticas. Estes são especificamente os metadados e não os dados no próprio BigQuery. Define recursos reutilizáveis para permitir a gestão consistente da malha de dados do Cortex.
Recurso do BigQuery Tabela ou vista do BigQuery. Objetos existentes do Cortex BigQuery regidos pela malha de dados.
Anotação de recursos do BigQuery Metadados aplicados a uma tabela ou uma vista específica do BigQuery. Isto inclui descrições, políticas de acesso e mapeamentos para recursos de metadados. Associe metadados a recursos do BigQuery para ativar a deteção e o controlo de acesso.
Especificação do recurso (especificação) Um ficheiro YAML que define um recurso de metadados ou uma anotação de recurso do BigQuery. O conjunto completo de especificações de recursos codifica a configuração da malha de dados a implementar.