Suscripciones a BigQuery

En este documento, se proporciona una descripción general de una suscripción a BigQuery, su flujo de trabajo y las propiedades asociadas.

Una suscripción a BigQuery es un tipo de suscripción de exportación que escribe mensajes en una tabla de BigQuery existente a medida que se reciben. No es necesario que configures otro cliente suscriptor. Usa la consola de Google Cloud, Google Cloud CLI, las bibliotecas cliente o la API de Pub/Sub para crear, actualizar, enumerar, desconectar o borrar una suscripción a BigQuery.

Sin el tipo de suscripción a BigQuery, necesitas una suscripción de extracción o envío y un suscriptor (como Dataflow) que lea los mensajes y los escriba en una tabla de BigQuery. La sobrecarga de ejecutar un trabajo de Dataflow no es necesaria cuando los mensajes no requieren procesamiento adicional antes de almacenarlos en una tabla de BigQuery. En su lugar, puedes usar una suscripción a BigQuery.

Sin embargo, aún se recomienda una canalización de Dataflow para los sistemas de Pub/Sub en los que se requiere cierta transformación de los datos antes de que se almacenen en una tabla de BigQuery. Para obtener información sobre cómo transmitir datos de Pub/Sub a BigQuery con la transformación mediante Dataflow, consulta Transmite de Pub/Sub a BigQuery.

De forma predeterminada, la suscripción de Pub/Sub a la plantilla de BigQuery desde Dataflow aplica la entrega “exactamente una vez” de forma predeterminada. Por lo general, esto se logra a través de mecanismos de anulación de duplicación dentro de la canalización de Dataflow. Sin embargo, la suscripción a BigQuery solo admite entregas al menos una vez. Si la anulación de duplicación exacta es fundamental en tu caso práctico, considera procesos descendentes en BigQuery para manejar posibles duplicados.

Antes de comenzar

Antes de leer este documento, asegúrate de estar familiarizado con la siguiente información:

  • Cómo funciona Pub/Sub y los diferentes términos de Pub/Sub

  • Los diferentes tipos de suscripciones que admite Pub/Sub y por qué es posible que desees usar una suscripción a BigQuery.

  • Cómo funciona BigQuery y cómo configurar y administrar sus tablas

Flujo de trabajo de suscripción a BigQuery

En la siguiente imagen, se muestra el flujo de trabajo entre una suscripción de BigQuery y BigQuery.

Flujo de mensajes para una suscripción a BigQuery
Figura 1. Flujo de trabajo para una suscripción a BigQuery

Esta es una breve descripción del flujo de trabajo que hace referencia a la Figura 1:

  1. Pub/Sub usa la API de escritura de almacenamiento de BigQuery para enviar datos a la tabla de BigQuery.
  2. Los mensajes se envían por lotes a la tabla de BigQuery.
  3. Después de completar con éxito una operación de escritura, la API muestra una respuesta correcta.
  4. Si hay alguna falla en la operación de escritura, el mensaje de Pub/Sub se confirma de forma negativa. Luego, se vuelve a enviar el mensaje. Si el mensaje falla varias veces y hay un tema de mensajes no entregados configurado en la suscripción, el mensaje se mueve al tema de mensajes no entregados.

Propiedades de una suscripción a BigQuery

Las propiedades que configuras para una suscripción a BigQuery determinan la tabla de BigQuery en la que Pub/Sub escribe los mensajes y el tipo de esquema de esa tabla.

Para obtener más información, consulta las propiedades de BigQuery.

Compatibilidad con el esquema

Pub/Sub y BigQuery usan diferentes formas de definir sus esquemas. Los esquemas de Pub/Sub se definen en formato Apache Avro o búfer de protocolo, mientras que los esquemas de BigQuery se definen con una variedad de formatos. La siguiente es una lista de información importante sobre la compatibilidad del esquema entre un tema de Pub/Sub y una tabla de BigQuery.

  • Cualquier mensaje que contenga un campo con formato incorrecto no se escribe en BigQuery.

  • En el esquema de BigQuery, INT, SMALLINT, INTEGER, BIGINT, TINYINT y BYTEINT son alias de INTEGER; DECIMAL es un alias para NUMERIC, y BIGDECIMAL es un alias para BIGNUMERIC.

  • Cuando el tipo en el esquema del tema es string y el tipo en la tabla de BigQuery es JSON, TIMESTAMP, DATETIME, DATE, TIME, NUMERIC o BIGNUMERIC, cualquier valor para este campo en un mensaje de Pub/Sub debe cumplir con el formato especificado para el tipo de datos de BigQuery.

  • Se admiten algunos tipos lógicos de Avro, como se especifica en la siguiente tabla. Los tipos lógicos que no están enumerados solo coinciden con el tipo de Avro equivalente que anotan, como se detalla en la especificación de Avro.

A continuación, se muestra una colección de la asignación de diferentes formatos de esquema a tipos de datos de BigQuery.

Tipos de Avro

Tipo de Avro Tipo de datos de BigQuery
null Any NULLABLE
boolean BOOLEAN
int INTEGER, NUMERIC o BIGNUMERIC
long INTEGER, NUMERIC o BIGNUMERIC
float FLOAT64, NUMERIC o BIGNUMERIC
double FLOAT64, NUMERIC o BIGNUMERIC
bytes BYTES, NUMERIC o BIGNUMERIC
string STRING, JSON, TIMESTAMP, DATETIME, DATE, TIME, NUMERIC o BIGNUMERIC
record RECORD/STRUCT
array de Type REPEATED Type
map con el tipo de valor ValueType REPEATED STRUCT <key STRING, value ValueType>
union con dos tipos, uno que es null y el otro Type NULLABLE Type
otros union No se puede asignar
fixed BYTES, NUMERIC o BIGNUMERIC
enum INTEGER

Tipos lógicos de Avro

Tipo lógico de Avro Tipo de datos de BigQuery
timestamp-micros TIMESTAMP
date DATE
time-micros TIME
duration INTERVAL
decimal NUMERIC o BIGNUMERIC

Tipos de búfer de protocolo

Tipo de búfer de protocolo Tipo de datos de BigQuery
double FLOAT64, NUMERIC o BIGNUMERIC
float FLOAT64, NUMERIC o BIGNUMERIC
int32 INTEGER, NUMERIC, BIGNUMERIC o DATE
int64 INTEGER, NUMERIC, BIGNUMERIC, DATE, DATETIME o TIMESTAMP
uint32 INTEGER, NUMERIC, BIGNUMERIC o DATE
uint64 NUMERIC o BIGNUMERIC
sint32 INTEGER, NUMERIC o BIGNUMERIC
sint64 INTEGER, NUMERIC, BIGNUMERIC, DATE, DATETIME o TIMESTAMP
fixed32 INTEGER, NUMERIC, BIGNUMERIC o DATE
fixed64 NUMERIC o BIGNUMERIC
sfixed32 INTEGER, NUMERIC, BIGNUMERIC o DATE
sfixed64 INTEGER, NUMERIC, BIGNUMERIC, DATE, DATETIME o TIMESTAMP
bool BOOLEAN
string STRING, JSON, TIMESTAMP, DATETIME, DATE, TIME, NUMERIC o BIGNUMERIC
bytes BYTES, NUMERIC o BIGNUMERIC
enum INTEGER
message RECORD/STRUCT
oneof No se puede asignar
map<KeyType, ValueType> REPEATED RECORD<key KeyType, value ValueType>
enum INTEGER
repeated/array of Type REPEATED Type

Representación de números enteros de fecha y hora

Cuando se asigna un número entero a uno de los tipos de hora o fecha, el número debe representar el valor correcto. A continuación, se muestra la asignación de los tipos de datos de BigQuery al número entero que los representa.

Tipo de datos de BigQuery Representación de números enteros
DATE La cantidad de días transcurridos desde la época Unix, 1 de enero de 1970
DATETIME La fecha y hora en microsegundos expresadas como hora civil con CivilTimeEncoder
TIME La hora en microsegundos expresada como hora civil con CivilTimeEncoder
TIMESTAMP La cantidad de microsegundos desde el tiempo Unix, 1 de enero de 1970, 00:00:00 UTC

Captura de datos modificados en BigQuery

Las suscripciones a BigQuery admiten actualizaciones de captura de datos modificados (CDC) cuando use_topic_schema o use_table_schema se configuran como true en las propiedades de la suscripción. Para usar la función con use_topic_schema, configura el esquema del tema con el siguiente campo:

  • _CHANGE_TYPE (obligatorio): Es un campo string configurado como UPSERT o DELETE.

    • Si un mensaje de Pub/Sub escrito en la tabla de BigQuery tiene _CHANGE_TYPE configurado como UPSERT, BigQuery actualiza la fila con la misma clave si existe o inserta una fila nueva si no existe.

    • Si un mensaje de Pub/Sub escrito en la tabla de BigQuery tiene el _CHANGE_TYPE configurado como DELETE, BigQuery borra la fila de la tabla con la misma clave, si existe.

Para usar la función con use_table_schema, incluye el campo anterior en el mensaje JSON.

Permisos de la cuenta de servicio de Pub/Sub

Para crear una suscripción a BigQuery, la cuenta de servicio de Pub/Sub debe tener permiso para escribir en la tabla de BigQuery específica y leer los metadatos de la tabla. Para obtener más información, consulta Asigna funciones de BigQuery a la cuenta de servicio de Pub/Sub.

Maneja los errores de los mensajes

Cuando un mensaje de Pub/Sub no se puede escribir en BigQuery, el mensaje no se puede confirmar. Para reenviar estos mensajes que no se pueden entregar, configura un tema de mensajes no entregados en la suscripción a BigQuery. El mensaje de Pub/Sub reenviado al tema de mensajes no entregados contiene un atributo CloudPubSubDeadLetterSourceDeliveryErrorMessage cuyo motivo no se pudo escribir en BigQuery.

Cuotas y límites

Hay limitaciones de cuota para la capacidad de procesamiento de los suscriptores de BigQuery por región. Para obtener más información, consulta Cuotas y límites de Pub/Sub.

Las suscripciones a BigQuery escriben datos mediante la API de BigQuery Storage Write. Si deseas obtener información sobre las cuotas y los límites de la API de Storage Write, consulta Solicitudes a la API de Storage Write de BigQuery. Las suscripciones a BigQuery solo consumen la cuota de capacidad de procesamiento de la API de Storage Write. Puedes ignorar las demás consideraciones de cuota de la API de Storage Write en esta instancia.

Precios

Para conocer los precios de las suscripciones a BigQuery, consulta la página de precios de Pub/Sub.

¿Qué sigue?