Introdução à framework de resolução de entidades do BigQuery

Este documento descreve a arquitetura da framework de resolução de entidades do BigQuery. A resolução de entidades é a capacidade de fazer corresponder registos em dados partilhados onde não existe um identificador comum ou de aumentar os dados partilhados através de um serviço de identidade de um parceiro. Google Cloud

Este documento destina-se aos utilizadores finais da resolução de entidades (doravante denominados utilizadores finais) e aos fornecedores de identidade. Para ver detalhes de implementação, consulte o artigo Configure e use a resolução de entidades no BigQuery.

Pode usar a resolução de entidades do BigQuery para quaisquer dados que sejam preparados antes de contribuir com dados para uma sala limpa de dados. A resolução de entidades está disponível nos modelos de preços a pedido e de capacidade, bem como em todas as edições do BigQuery.

Vantagens

Como utilizador final, pode beneficiar da resolução de entidades das seguintes formas:

  • Pode resolver entidades no local sem incorrer em taxas de transferência de dados porque um subscritor ou Google Cloud parceiro faz a correspondência dos seus dados com a respetiva tabela de identidades e escreve os resultados da correspondência num conjunto de dados no seu projeto.
  • Não tem de gerir tarefas de extração, transformação e carregamento (ETL).

Como fornecedor de identidade, pode beneficiar da resolução de entidades das seguintes formas:

  • Pode oferecer a resolução de entidades como uma oferta de software como serviço (SaaS) gerido no Google Cloud Marketplace.
  • Pode usar os seus gráficos de identidade proprietários e lógica de correspondência sem os revelar aos utilizadores.

Arquitetura

O BigQuery implementa a resolução de entidades através de chamadas de funções remotas que ativam processos de resolução de entidades no ambiente de um fornecedor de identidade. Não é necessário copiar nem mover os seus dados durante este processo. O diagrama e a explicação seguintes descrevem o fluxo de trabalho para a resolução de entidades:

Um diagrama que mostra duas secções principais: um projeto do utilizador final e um projeto do fornecedor de identidade.

  1. O utilizador final concede à conta de serviço do fornecedor de identidade acesso de leitura ao respetivo conjunto de dados de entrada e acesso de escrita ao respetivo conjunto de dados de saída.
  2. O utilizador chama a função remota que faz corresponder os respetivos dados de entrada aos dados do gráfico de identidade do fornecedor. Os parâmetros de correspondência são transmitidos ao fornecedor com a função remota.
  3. A conta de serviço do fornecedor lê o conjunto de dados de entrada e processa-o.
  4. A conta de serviço do fornecedor escreve os resultados da resolução de entidades no conjunto de dados de saída do utilizador.

As secções seguintes descrevem os componentes do utilizador final e os projetos do fornecedor.

Componentes do utilizador final

Os componentes do utilizador final incluem o seguinte:

  • Chamada de função remota: uma chamada que executa um procedimento definido e implementado pelo fornecedor de identidade. Esta chamada inicia o processo de resolução de entidades.
  • Conjunto de dados de entrada: o conjunto de dados de origem que contém os dados a fazer corresponder. Opcionalmente, o conjunto de dados pode conter uma tabela de metadados com parâmetros adicionais. Os fornecedores especificam os requisitos de esquema para conjuntos de dados de entrada.
  • Conjunto de dados de saída: o conjunto de dados de destino onde o fornecedor armazena os resultados da correspondência como uma tabela de saída. Opcionalmente, o fornecedor pode escrever uma tabela de estado do trabalho que contenha detalhes do trabalho de resolução de entidades neste conjunto de dados. O conjunto de dados de saída pode ser igual ao conjunto de dados de entrada.

Componentes do Fornecedor de identidade

Os componentes do fornecedor de identidade incluem o seguinte:

  • Plano de controlo: contém uma função remota do BigQuery que orquestra o processo de correspondência. Esta função pode ser implementada como uma tarefa do Cloud Run ou uma função do Cloud Run. O plano de controlo também pode conter outros serviços, como autenticação e autorização.
  • Plano de dados: contém o conjunto de dados do gráfico de identidade e o procedimento armazenado que implementa a lógica de correspondência de fornecedores. O procedimento armazenado pode ser implementado como um procedimento armazenado SQL ou um procedimento armazenado Apache Spark. O conjunto de dados do gráfico de identidade contém as tabelas com as quais os dados do utilizador final são correspondidos.

O que se segue?