Configurar y usar la resolución de entidades en BigQuery

En este documento se explica cómo implementar la resolución de entidades para los usuarios finales de la resolución de entidades (en adelante, usuarios finales) y los proveedores de identidades.

Los usuarios finales pueden usar este documento para conectarse con un proveedor de identidades y usar el servicio del proveedor para asociar registros. Los proveedores de identidades pueden usar este documento para configurar servicios que compartir con los usuarios finales en Google Cloud Marketplace.

Flujo de trabajo para usuarios finales

En las siguientes secciones se explica a los usuarios finales cómo configurar la resolución de entidades en BigQuery. Para ver una representación visual de la configuración completa, consulta la arquitectura de la resolución de entidades.

Antes de empezar

  1. Ponte en contacto con un proveedor de identidades y establece una relación con él. BigQuery admite la resolución de entidades con LiveRamp y TransUnion.
  2. Obtén los siguientes elementos del proveedor de identidades:
    • Credenciales de cuenta de servicio
    • Firma de función remota
  3. Crea dos conjuntos de datos en tu proyecto:
    • Conjunto de datos de entrada
    • Conjunto de datos de salida

Roles obligatorios

Para obtener los permisos que necesitas para ejecutar trabajos de resolución de entidades, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:

  • Para que la cuenta de servicio del proveedor de identidades pueda leer el conjunto de datos de entrada y escribir en el de salida, haz lo siguiente:

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Traducir o resolver entidades

Para obtener instrucciones específicas sobre proveedores de identidades, consulta las siguientes secciones.

LiveRamp

Requisitos previos

  • Configura LiveRamp Embedded Identity en BigQuery. Para obtener más información, consulta el artículo sobre cómo habilitar LiveRamp Embedded Identity en BigQuery.
  • Coordínate con LiveRamp para habilitar las credenciales de la API que se usarán con Embedded Identity. Para obtener más información, consulta Autenticación.

Configuración

Debes seguir estos pasos la primera vez que uses LiveRamp Embedded Identity. Una vez completada la configuración, solo se deben modificar la tabla de entrada y la tabla de metadatos entre ejecuciones.

Crear una tabla de entrada

Crea una tabla en el conjunto de datos de entrada. Rellene la tabla con RampIDs, dominios de destino y tipos de destino. Para obtener más información y ver ejemplos, consulta Columnas y descripciones de la tabla de entrada.

Crear una tabla de metadatos

La tabla de metadatos se usa para controlar la ejecución de LiveRamp Embedded Identity en BigQuery. Crea una tabla de metadatos en el conjunto de datos de entrada. Rellena la tabla de metadatos con los IDs de cliente, los modos de ejecución, los dominios de destino y los tipos de destino. Para obtener más información y ver ejemplos, consulta Columnas y descripciones de la tabla de metadatos.

Compartir tablas con LiveRamp

Concede a la cuenta de servicio de LiveRamp Google Cloud acceso para ver y procesar datos en tu conjunto de datos de entrada. Para obtener más información y ver ejemplos, consulta Compartir tablas y conjuntos de datos con LiveRamp.

Ejecutar un trabajo de identidad insertada

Para ejecutar una tarea de identidad insertada con LiveRamp en BigQuery, haz lo siguiente:

  1. Confirma que todos los RampIDs codificados en tu dominio se encuentran en tu tabla de entrada.
  2. Confirma que la tabla de metadatos sigue siendo precisa antes de ejecutar el trabajo.
  3. Ponte en contacto con LiveRampIdentitySupport@liveramp.com para solicitar un proceso de trabajo. Incluye el ID del proyecto, el ID del conjunto de datos y el ID de la tabla (si procede) de la tabla de entrada, la tabla de metadatos y el conjunto de datos de salida. Para obtener más información, consulta Notificar a LiveRamp para iniciar la transcodificación.

Los resultados suelen enviarse al conjunto de datos de salida en un plazo de tres días hábiles.

Asistencia de LiveRamp

Si tienes algún problema, ponte en contacto con el equipo de Asistencia de LiveRamp Identity.

Facturación de LiveRamp

LiveRamp se encarga de la facturación de la resolución de entidades.

TransUnion

Requisitos previos

  • Ponte en contacto con el equipo de Asistencia de TransUnion Cloud para formalizar un contrato y acceder al servicio. Proporciona los detalles de tu Google Cloud ID de proyecto, los tipos de datos de entrada, el caso práctico y el volumen de datos.
  • El equipo de Asistencia de TransUnion Cloud habilita el servicio para tu Google Cloud proyecto y comparte una guía de implementación detallada que incluye los datos de salida disponibles.

Configuración

Debes seguir estos pasos cuando uses el servicio TruAudience Identity Resolution and Enrichment de TransUnion en tu entorno de BigQuery.

Crear una conexión externa

Crea una conexión a una fuente de datos externa de tipo Modelos remotos, funciones remotas y BigLake (recurso de Cloud) de Vertex AI. Usarás esta conexión para activar el servicio de resolución de identidades alojado en la cuenta de TransUnion Google Cloud desde tu cuenta deGoogle Cloud .

Copia el ID de conexión y el ID de cuenta de servicio, y comparte estos identificadores con el equipo de entrega de clientes de TransUnion.

Crear una función remota

Crea una función remota que interactúe con el endpoint del orquestador de servicios alojado en el proyecto de TransUnion Google Cloud para transferir los metadatos necesarios (incluidas las asignaciones de esquemas) al servicio de TransUnion. Usa el ID de conexión de la conexión externa que has creado y el endpoint de la función en la nube alojada en TransUnion que te ha proporcionado el equipo de entrega de clientes de TransUnion.

Crear una tabla de entrada

Crea una tabla en el conjunto de datos de entrada. TransUnion admite como entradas el nombre, la dirección postal, el correo electrónico, el teléfono, la fecha de nacimiento, la dirección IPv4 y los IDs de dispositivo. Sigue las directrices de formato que se indican en la guía de implementación que te ha proporcionado TransUnion.

Crear una tabla de metadatos

Crea una tabla de metadatos que almacene la configuración que necesita el servicio de resolución de identidades para procesar los datos, incluidas las asignaciones de esquemas. Para obtener más información y ejemplos, consulta la guía de implementación que TransUnion ha compartido contigo.

Crear una tabla de estado de las tareas

Crea una tabla que reciba actualizaciones sobre el procesamiento de un lote de entrada. Puede consultar esta tabla para activar otros procesos posteriores en su pipeline. Los posibles estados de los trabajos son los siguientes: RUNNING, COMPLETED o ERROR.

Crear la invocación del servicio

Sigue este procedimiento para llamar al servicio de resolución de identidad de TransUnion después de recoger todos los metadatos, empaquetarlos y enviarlos al endpoint de la función de nube de invocación alojado por TransUnion.

-- create service invocation procedure
CREATE OR REPLACE
  PROCEDURE
    `<project_id>.<dataset_id>.TransUnion_get_identities`(metadata_table STRING, config_id STRING)
      begin
        declare sql_query STRING;

declare json_result STRING;
declare base64_result STRING;

SET sql_query =
  '''select to_json_string(array_agg(struct(config_id,key,value))) from `''' || metadata_table
  || '''` where  config_id="''' || config_id || '''" ''';

EXECUTE immediate sql_query INTO json_result;

SET base64_result = (SELECT to_base64(CAST(json_result AS bytes)));

SELECT `<project_id>.<dataset_id>.remote_call_TransUnion_er`(base64_result);

END;
Crear la tabla de salida correspondiente

Ejecuta la siguiente secuencia de comandos de SQL para crear la tabla de salida correspondiente. Se trata de la salida estándar de la aplicación, que incluye marcas de coincidencias, puntuaciones, IDs individuales persistentes e IDs de unidades familiares.

-- create output table
CREATE TABLE `<project_id>.<dataset_id>.TransUnion_identity_output`(
  batchid STRING,
  uniqueid STRING,
  ekey STRING,
  hhid STRING,
  collaborationid STRING,
  firstnamematch STRING,
  lastnamematch STRING,
  addressmatches STRING,
  addresslinkagescores STRING,
  phonematches STRING,
  phonelinkagescores STRING,
  emailmatches STRING,
  emaillinkagescores STRING,
  dobmatches STRING,
  doblinkagescore STRING,
  ipmatches STRING,
  iplinkagescore STRING,
  devicematches STRING,
  devicelinkagescore STRING,
  lastprocessed STRING);
Configurar metadatos

Sigue la guía de implementación que TransUnion ha compartido contigo para asignar tu esquema de entrada al esquema de la aplicación. Estos metadatos también configuran la generación de IDs de colaboración, que son identificadores no persistentes que se pueden compartir y que se pueden usar en salas blancas de datos.

Conceder acceso de lectura y escritura

Obtén el ID de la cuenta de servicio de la conexión de Apache Spark del equipo de entrega de clientes de TransUnion y concédele acceso de lectura y escritura al conjunto de datos que contiene las tablas de entrada y salida. Le recomendamos que proporcione el ID de la cuenta de servicio con el rol Editor de datos de BigQuery en el conjunto de datos.

Invocar la aplicación

Puedes invocar la aplicación desde tu entorno ejecutando la siguiente secuencia de comandos.

call `<project_id>.<dataset_id>.TransUnion_get_identities`("<project_id>.<dataset_id>.TransUnion_er_metadata","1");
-- using metadata table, and 1 = config_id for the batch run

Asistencia

Si tienes problemas técnicos, ponte en contacto con el equipo de Asistencia de TransUnion Cloud.

Facturación y uso

TransUnion monitoriza el uso de la aplicación y lo utiliza con fines de facturación. Los clientes activos pueden ponerse en contacto con su representante de TransUnion para obtener más información.

Flujo de trabajo para proveedores de identidades

En las siguientes secciones se explica a los proveedores de identidades cómo configurar la resolución de entidades en BigQuery. Para ver una representación visual de la configuración completa, consulta la arquitectura de la resolución de entidades.

Antes de empezar

  1. Crea un trabajo de Cloud Run o una función de Cloud Run para integrarla con la función remota. Ambas opciones son adecuadas para este fin.
  2. Anota el nombre de la cuenta de servicio asociada a la función de Cloud Run:

    1. En la Google Cloud consola, ve a la página Cloud Functions.

      Ir a Cloud Functions

    2. Haga clic en el nombre de la función y, a continuación, en la pestaña Detalles.

    3. En el panel Información general, busca y anota el nombre de la cuenta de servicio de la función remota.

  3. Crea una función remota.

  4. Recoge los principales de los usuarios finales.

Roles obligatorios

Para obtener los permisos que necesitas para ejecutar trabajos de resolución de entidades, pide a tu administrador que te conceda los siguientes roles de gestión de identidades y accesos:

  • Para que la cuenta de servicio asociada a tu función pueda leer y escribir en los conjuntos de datos asociados y lanzar trabajos, haz lo siguiente:
  • Para que la entidad de seguridad del usuario final pueda ver la función remota y conectarse a ella, debe cumplir los siguientes requisitos:

Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar acceso a proyectos, carpetas y organizaciones.

También puedes conseguir los permisos necesarios a través de roles personalizados u otros roles predefinidos.

Compartir función remota de resolución de entidades

Modifica y comparte el siguiente código de interfaz remota con el usuario final. El usuario final necesita este código para iniciar el trabajo de resolución de entidades.

`PARTNER_PROJECT_ID.DATASET_ID`.match`(LIST_OF_PARAMETERS)

Sustituye LIST_OF_PARAMETERS por la lista de parámetros que se transfieren a la función remota.

Opcional: Proporciona metadatos de la tarea

También puedes proporcionar metadatos de trabajo mediante una función remota independiente o escribiendo una nueva tabla de estado en el conjunto de datos de salida del usuario. Algunos ejemplos de metadatos son los estados y las métricas de los trabajos.

Facturación de proveedores de identidades

Para agilizar la facturación y la incorporación de clientes, te recomendamos que integres tu servicio de resolución de entidades con Google Cloud Marketplace. De esta forma, puedes configurar un modelo de precios basado en el uso del trabajo de resolución de entidades, y Google se encargará de la facturación. Para obtener más información, consulta el artículo Ofrecer productos de software como servicio (SaaS).