Introducción al framework de resolución de entidades de BigQuery

En este documento se describe la arquitectura del framework de resolución de entidades de BigQuery. La resolución de entidades es la capacidad de hacer coincidir los registros de los datos compartidos en los que no existe un identificador común o de aumentar los datos compartidos mediante un servicio de identidad de un socio de Google Cloud.

Este documento está dirigido a usuarios finales de resolución de entidades (a partir de ahora, usuarios finales) y proveedores de identidad. Para obtener detalles sobre la implementación, consulta Configura y usa la resolución de entidades en BigQuery.

Puedes usar la resolución de entidades de BigQuery para cualquier dato que se prepare antes de contribuir a una sala limpia de datos. La resolución de entidades está disponible en los modelos de precios según demanda y por capacidad, y en todas las ediciones de BigQuery.

Ventajas

Como usuario final, puedes beneficiarte de la resolución de entidades de las siguientes maneras:

  • Puedes resolver entidades en su lugar sin invocar tarifas de transferencia de datos porque un suscriptor o socio de Google Cloud hace coincidir tus datos con su tabla de identidad y escribe los resultados de la coincidencia en un conjunto de datos en tu proyecto.
  • No necesitas administrar trabajos de extracción, transformación ni carga (ETL).

Como proveedor de identidad, puedes beneficiarte de la resolución de entidades de las siguientes maneras:

  • Puedes ofrecer la resolución de entidades como una oferta de software como servicio (SaaS) administrado en Google Cloud Marketplace.
  • Puedes usar tus gráficos de identidad y la lógica de coincidencias sin revelarlos a los usuarios.

Arquitectura

BigQuery implementa la resolución de entidades mediante llamadas a funciones remotas que activan procesos de resolución de entidades en el entorno de un proveedor de identidad. No es necesario copiar ni mover tus datos durante este proceso. En el siguiente diagrama y explicación, se describe el flujo de trabajo para la resolución de entidades:

Un diagrama que muestra dos secciones principales: un proyecto de usuario final y un proyecto de proveedor de identidad.

  1. El usuario final otorga a la cuenta de servicio del proveedor de identidad acceso de lectura a su conjunto de datos de entrada y acceso de escritura a su conjunto de datos de salida.
  2. El usuario llama a la función remota que hace coincidir sus datos de entrada con los datos del grafo de identidad del proveedor. Los parámetros coincidentes se pasan al proveedor con la función remota.
  3. La cuenta de servicio del proveedor lee el conjunto de datos de entrada y lo procesa.
  4. La cuenta de servicio del proveedor escribe los resultados de la resolución de entidades en el conjunto de datos de salida del usuario.

En las siguientes secciones, se describen los componentes del usuario final y los proyectos de proveedores.

Componentes del usuario final

Los componentes del usuario final incluyen lo siguiente:

  • Llamada a función remota: Una llamada que ejecuta un procedimiento definido e implementado por el proveedor de identidad. Esta llamada inicia el proceso de resolución de entidades.
  • Conjunto de datos de entrada: Es el conjunto de datos de origen que contiene los datos que deben coincidir. De forma opcional, el conjunto de datos puede contener una tabla de metadatos con parámetros adicionales. Los proveedores especifican los requisitos de esquema para los conjuntos de datos de entrada.
  • Conjunto de datos de salida: Es el conjunto de datos de destino en el que el proveedor almacena los resultados coincidentes como una tabla de salida. De manera opcional, el proveedor puede escribir una tabla de estado del trabajo que contenga los detalles del trabajo de resolución de entidades en este conjunto de datos. El conjunto de datos de salida puede ser el mismo que el conjunto de datos de entrada.

Componentes del proveedor de identidad

Los componentes del proveedor de identidad incluyen lo siguiente:

  • Plano de control: Contiene una función remota de BigQuery que organiza el proceso de coincidencia. Esta función se puede implementar como un trabajo de Cloud Run o una Cloud Function. El plano de control también puede contener otros servicios, como la autenticación y la autorización.
  • Plano de datos: Contiene el conjunto de datos del grafo de identidad y el procedimiento almacenado que implementa la lógica de coincidencia del proveedor. El procedimiento almacenado se puede implementar como un procedimiento almacenado en SQL o un procedimiento almacenado de Apache Spark. El conjunto de datos del gráfico de identidad contiene las tablas con las que se comparan los datos del usuario final.

¿Qué sigue?