Introducción al framework de resolución de entidades de BigQuery

En este documento, se describe la arquitectura del framework de resolución de entidades de BigQuery. La resolución de entidades es la capacidad de hacer coincidir registros en datos compartidos cuando no existe un identificador común o de aumentar los datos compartidos con un servicio de identidad de un socio de Google Cloud.

Este documento está dirigido a los usuarios finales de la resolución de entidades (en adelante, usuarios finales) y a los proveedores de identidad. Para obtener detalles sobre la implementación, consulta Configura y usa la resolución de entidades en BigQuery.

Puedes usar la resolución de entidades de BigQuery para cualquier dato que se prepare antes de enviar datos a una sala limpia de datos. La resolución de entidades está disponible en los modelos de precios según demanda y basados en la capacidad, y en todas las ediciones de BigQuery.

Ventajas

Como usuario final, puedes beneficiarte de la resolución de entidades de las siguientes maneras:

Puedes resolver entidades sin invocar tarifas de transferencia de datos porque un suscriptor o socio de Google Cloud hace coincidir tus datos con su tabla de identidad y escribe los resultados de la coincidencia en un conjunto de datos de tu proyecto.
No es necesario que administres trabajos de extracción, transformación y carga (ETL).

Como proveedor de identidad, puedes beneficiarte de la resolución de entidades de las siguientes maneras:

Puedes ofrecer la resolución de entidades como una oferta de software como servicio (SaaS) administrado en Google Cloud Marketplace.
Puedes usar tus gráficos de identidad y la lógica de coincidencias sin revelarlos a los usuarios.

Arquitectura

BigQuery implementa la resolución de entidades mediante llamadas a funciones remotas que activan procesos de resolución de entidades en el entorno de un proveedor de identidad. No es necesario copiar ni mover tus datos durante este proceso. En el siguiente diagrama y explicación, se describe el flujo de trabajo para la resolución de entidades:

Un diagrama que muestra dos secciones principales: un proyecto de usuario final y un proyecto de proveedor de identidad.

El usuario final otorga a la cuenta de servicio del proveedor de identidad acceso de lectura a su conjunto de datos de entrada y acceso de escritura a su conjunto de datos de salida.
El usuario llama a la función remota que coincide con sus datos de entrada con los datos del gráfico de identidad del proveedor. Los parámetros de coincidencia se pasan al proveedor con la función remota.
La cuenta de servicio del proveedor lee el conjunto de datos de entrada y lo procesa.
La cuenta de servicio del proveedor escribe los resultados de la resolución de entidades en el conjunto de datos de salida del usuario.

En las siguientes secciones, se describen los componentes del usuario final y los proyectos del proveedor.

Componentes del usuario final

Entre los componentes del usuario final, se incluyen los siguientes:

Llamada a función remota: Es una llamada que ejecuta un procedimiento definido y implementado por el proveedor de identidad. Esta llamada inicia el proceso de resolución de entidades.
Conjunto de datos de entrada: Es el conjunto de datos de origen que contiene los datos que se deben hacer coincidir. De manera opcional, el conjunto de datos puede contener una tabla de metadatos con parámetros adicionales. Los proveedores especifican los requisitos de esquema para los conjuntos de datos de entrada.
Conjunto de datos de salida: Es el conjunto de datos de destino en el que el proveedor almacena los resultados coincidentes como una tabla de salida. De manera opcional, el proveedor puede escribir una tabla de estado del trabajo que contenga detalles del trabajo de resolución de entidades en este conjunto de datos. El conjunto de datos de salida puede ser el mismo que el de entrada.

Componentes del proveedor de identidad

Los componentes del proveedor de identidad incluyen lo siguiente:

Plano de control: Contiene una función remota de BigQuery que organiza el proceso de coincidencia. Esta función se puede implementar como un trabajo de Cloud Run o una función de Cloud Run. El plano de control también puede contener otros servicios, como la autenticación y la autorización.
Plano de datos: Contiene el conjunto de datos del gráfico de identidad y el procedimiento almacenado que implementa la lógica de coincidencia de proveedores. El procedimiento almacenado se puede implementar como un procedimiento almacenado en SQL o un procedimiento almacenado de Apache Spark. El conjunto de datos del gráfico de identidad contiene las tablas con las que se comparan los datos del usuario final.

¿Qué sigue?

Para obtener información sobre cómo usar la resolución de entidades en tu proyecto, consulta Configura y usa la resolución de entidades en BigQuery.