BigQuery
Usa el conector de BigQuery para realizar operaciones de inserción, eliminación, actualización y lectura en los datos de Google BigQuery. También puedes ejecutar consultas de SQL personalizadas en los datos de BigQuery. Puedes usar el conector de BigQuery para integrar datos de varios servicios de Google Cloud o de otros servicios de terceros, como Cloud Storage o Amazon S3.
Antes de comenzar
En tu proyecto de Google Cloud, realiza las siguientes tareas:
- Asegúrate de que la conectividad de red esté configurada. Para obtener información sobre los patrones de red, consulta Conectividad de red.
- Otorga el rol de IAM roles/connectors.admin al usuario que configura el conector.
- Otorga el rol de IAM
roles/bigquery.dataEditor
a la cuenta de servicio que deseas usar para el conector. - Habilita los siguientes servicios:
secretmanager.googleapis.com
(API de Secret Manager)connectors.googleapis.com
(API de conectores)
Para comprender cómo habilitar servicios, consulta Habilita servicios. Si estos servicios o permisos no se habilitaron antes para tu proyecto, se te solicitará que los habilites cuando configures el conector.
Crea una conexión de BigQuery
Una conexión es específica de una fuente de datos. Significa que, si tienes muchas fuentes de datos, debes crear una conexión independiente para cada fuente. Para crear una conexión, haz lo siguiente:
- En la consola de Cloud, ve a la página Conectores de Integration > Conexiones y, luego, selecciona o crea un proyecto de Google Cloud.
- Haz clic en + CREAR NUEVO para abrir la página Crear conexión.
- En la sección Ubicación, selecciona una ubicación de la lista Región y, luego, haz clic en SIGUIENTE.
Para obtener la lista de todas las regiones compatibles, consulta Ubicaciones.
- En la sección Detalles de la conexión, haz lo siguiente:
- Selecciona BigQuery en la lista Conector.
- Selecciona una versión del conector de la lista Versión del conector.
- En el campo Nombre de la conexión, ingresa un nombre para la instancia de conexión. El nombre de la conexión puede contener letras minúsculas, números o guiones. El nombre debe comenzar con una letra y terminar con una letra o un número, y no debe superar los 49 caracteres.
- De manera opcional, habilita Cloud Logging y, luego, selecciona un nivel de registro. De forma predeterminada, el nivel de registro se establece en
Error
. - Cuenta de servicio: Selecciona una cuenta de servicio que tenga los roles necesarios.
- De manera opcional, configura los parámetros de nodo de conexión.
- Cantidad mínima de nodos: Ingresa la cantidad mínima de nodos de conexión.
- Cantidad máxima de nodos: Ingresa la cantidad máxima de nodos de conexión.
- ID del proyecto: Ingresa el ID del proyecto de Google Cloud en el que residen los datos.
- ID del conjunto de datos: Ingresa el ID del conjunto de datos de BigQuery.
- Para admitir el tipo de datos Array de BigQuery, selecciona Support Native Data Types. Se admiten los siguientes tipos de array: Varchar, Int64, Float64, Long, Double, Bool y Timestamp. No se admiten los arrays anidados.
- De manera opcional, para configurar un servidor proxy para la conexión, selecciona Usar proxy y, luego, ingresa los detalles del proxy.
-
Esquema de autenticación del proxy: Selecciona el tipo de autenticación para autenticar con el servidor proxy. Se admiten los siguientes tipos de autenticación:
- Básico: Autenticación HTTP básica.
- Resumen: Autenticación de HTTP de resumen.
- Usuario de proxy: Un nombre de usuario que se usará para autenticarse con el servidor proxy.
- Contraseña de proxy: el secreto de Secret Manager de la contraseña del usuario.
-
Tipo de SSL del proxy: el tipo de SSL que se usará para conectarse al servidor del proxy. Se admiten los siguientes tipos de autenticación:
- Automático: Configuración predeterminada. Si la URL es HTTPS, se usa la opción Túnel. Si la URL es una URL HTTP, se usa la opción NUNCA.
- Siempre: La conexión siempre está habilitada para SSL.
- Nunca: La conexión no está habilitada para SSL.
- Túnel: La conexión se realiza a través de un proxy de túnel. El servidor proxy abre una conexión con el host remoto y el tráfico fluye de un lado a otro a través del proxy.
- En la sección Proxy Server, ingresa los detalles del servidor proxy.
- Haz clic en Agregar destino.
- Selecciona un Tipo de destino.
- Dirección del host: Especifica el nombre de host o la dirección IP del destino.
Si deseas establecer una conexión privada a tu sistema de backend, haz lo siguiente:
- Crea un adjunto de servicio de PSC.
- Crea un adjunto de extremo y, luego, ingresa los detalles del adjunto del extremo en el campo Dirección del host.
- Dirección del host: Especifica el nombre de host o la dirección IP del destino.
- Haz clic en SIGUIENTE.
Un nodo es una unidad (o réplica) de una conexión que procesa transacciones. Se requieren más nodos para procesar más transacciones para una conexión y, del mismo modo, se requieren menos para procesar menos transacciones. Para comprender cómo los nodos afectan el precio del conector, consulta Precios de nodos de conexión. Si no ingresas ningún valor, se establecen de forma predeterminada los nodos mínimos en 2 (para una mejor disponibilidad) y los nodos máximos en 50.
-
En la sección Autenticación, ingresa los detalles de autenticación.
- Selecciona si quieres autenticarte con OAuth 2.0: Código de autorización o si quieres continuar sin autenticación.
Para comprender cómo configurar la autenticación, consulta Configura la autenticación.
- Haz clic en SIGUIENTE.
- Selecciona si quieres autenticarte con OAuth 2.0: Código de autorización o si quieres continuar sin autenticación.
- Revisa los detalles de conexión y autenticación y, luego, haz clic en Crear.
Configura la autenticación
Ingresa los detalles según la autenticación que desees usar.
- Sin autenticación: Selecciona esta opción si no requieres autenticación.
- OAuth 2.0: Código de autorización: Selecciona esta opción para autenticarte con un flujo de acceso de usuario basado en la Web. Especifica los siguientes detalles:
- ID de cliente: Es el ID de cliente necesario para conectarse a tu servicio de backend de Google.
- Permisos: Es una lista de permisos deseados separados por comas. Para ver todos los permisos de OAuth 2.0 admitidos para el servicio de Google que necesitas, consulta la sección relevante en la página Alcances de OAuth 2.0 para las APIs de Google.
- Secreto del cliente: Selecciona el secreto de Secret Manager. Debes crear el secreto de Secret Manager antes de configurar esta autorización.
- Versión del secreto: La versión del secreto de Secret Manager para el secreto del cliente.
Para el tipo de autenticación Authorization code
, después de crear la conexión, debes autorizarla.
Autoriza la conexión
Si usas OAuth 2.0 (código de autorización) para autenticar la conexión, completa las siguientes tareas después de crearla.
- En la página Conexiones, busca la conexión recién creada.
Ten en cuenta que el Estado del nuevo conector será Se requiere autorización.
- Haz clic en Se requiere autorización.
Se mostrará el panel Editar autorización.
- Copia el valor del URI de redireccionamiento en tu aplicación externa.
- Verifica los detalles de la autorización.
- Haz clic en Autorizar.
Si la autorización se realiza correctamente, el estado de la conexión se establecerá como Activa en la página Conexiones.
Cómo volver a autorizar el código de autorización
Si usas el tipo de autenticación Authorization code
y realizaste cambios de configuración en BigQuery, debes volver a autorizar tu conexión de BigQuery. Para volver a autorizar una conexión, sigue estos pasos:
- Haz clic en la conexión requerida en la página Conexiones.
Se abrirá la página de detalles de la conexión.
- Haz clic en Editar para editar los detalles de la conexión.
- Verifica los detalles de OAuth 2.0: Código de autorización en la sección Autenticación.
Si es necesario, realiza los cambios necesarios.
- Haz clic en Guardar. Esto te llevará a la página de detalles de la conexión.
- Haz clic en Editar autorización en la sección Autenticación. Se mostrará el panel Autorizar.
- Haz clic en Autorizar.
Si la autorización se realiza correctamente, el estado de la conexión se establecerá como Activa en la página Conexiones.
Usa la conexión de BigQuery en una integración
Después de crear la conexión, estará disponible en la integración de Apigee y en la integración de aplicaciones. Puedes usar la conexión en una integración a través de la tarea Conectores.
- Para comprender cómo crear y usar la tarea Connectors en la integración de Apigee, consulta Tarea Connectors.
- Para comprender cómo crear y usar la tarea Connectors en Application Integration, consulta Tarea Connectors.
Acciones
En esta sección, se describen las acciones disponibles en el conector de BigQuery.
Acción CancelJob
Esta acción te permite cancelar un trabajo de BigQuery en ejecución.
En la siguiente tabla, se describen los parámetros de entrada de la acción CancelJob
.
Nombre del parámetro | Tipo de dato | Descripción |
---|---|---|
JobId | String | El ID del trabajo que deseas cancelar. Este es un campo obligatorio. |
Región | String | La región en la que se está ejecutando el trabajo. Esto no es obligatorio si el trabajo está en una región de EE.UU. o la UE. |
Acción GetJob
Esta acción te permite recuperar la información de configuración y el estado de ejecución de un trabajo existente.
En la siguiente tabla, se describen los parámetros de entrada de la acción GetJob
.
Nombre del parámetro | Tipo de dato | Descripción |
---|---|---|
JobId | String | El ID del trabajo para el que deseas recuperar la configuración. Este es un campo obligatorio. |
Región | String | La región en la que se está ejecutando el trabajo. Esto no es obligatorio si el trabajo está en una región de EE.UU. o la UE. |
Acción InsertJob
Esta acción te permite insertar un trabajo de BigQuery, que se puede seleccionar más adelante para recuperar los resultados de la consulta.
En la siguiente tabla, se describen los parámetros de entrada de la acción InsertJob
.
Nombre del parámetro | Tipo de dato | Descripción |
---|---|---|
Consulta | String | Es la consulta que se enviará a BigQuery. Este es un campo obligatorio. |
IsDML | String | Se debe establecer en true si la consulta es una sentencia DML o false en caso contrario. El valor predeterminado es false . |
DestinationTable | String | Es la tabla de destino de la consulta, en formato DestProjectId:DestDatasetId.DestTable . |
WriteDisposition | String | Especifica cómo escribir datos en la tabla de destino, como truncar resultados existentes, anexar resultados existentes o escribir solo cuando la tabla esté vacía. Los siguientes son los valores admitidos:
|
DryRun | String | Especifica si la ejecución del trabajo es una prueba. |
MaximumBytesBilled | String | Especifica la cantidad máxima de bytes que puede procesar la tarea. BigQuery cancela el trabajo si intenta procesar más bytes que el valor especificado. |
Región | String | Especifica la región en la que se debe ejecutar la tarea. |
Acción InsertLoadJob
Esta acción te permite insertar un trabajo de carga de BigQuery, que agrega datos de Google Cloud Storage a una tabla existente.
En la siguiente tabla, se describen los parámetros de entrada de la acción InsertLoadJob
.
Nombre del parámetro | Tipo de dato | Descripción |
---|---|---|
SourceURIs | String | Es una lista de URIs de Google Cloud Storage separados por espacios. |
SourceFormat | String | Es el formato de origen de los archivos. Los siguientes son los valores admitidos:
|
DestinationTable | String | Es la tabla de destino de la consulta, en formato DestProjectId.DestDatasetId.DestTable . |
DestinationTableProperties | String | Es un objeto JSON que especifica el nombre amigable, la descripción y la lista de etiquetas de la tabla. |
DestinationTableSchema | String | Es una lista JSON que especifica los campos que se usan para crear la tabla. |
DestinationEncryptionConfiguration | String | Un objeto JSON que especifica la configuración de encriptación de KMS para la tabla. |
SchemaUpdateOptions | String | Es una lista JSON que especifica las opciones que se aplicarán cuando se actualice el esquema de la tabla de destino. |
TimePartitioning | String | Un objeto JSON que especifica el tipo y el campo de partición de tiempo. |
RangePartitioning | String | Un objeto JSON que especifica el campo de partición de rango y los buckets. |
Agrupamiento en clústeres | String | Un objeto JSON que especifica los campos que se usarán para el agrupamiento en clústeres. |
Detección automática | String | Especifica si las opciones y el esquema deben determinarse automáticamente para los archivos JSON y CSV. |
CreateDisposition | String | Especifica si se debe crear la tabla de destino si aún no existe. Los siguientes son los valores admitidos:
|
WriteDisposition | String | Especifica cómo escribir datos en la tabla de destino, por ejemplo, truncar resultados existentes, anexar resultados existentes o escribir solo cuando la tabla esté vacía. Los siguientes son los valores admitidos:
|
Región | String | Especifica la región en la que se debe ejecutar la tarea. Tanto los recursos de Google Cloud Storage como el conjunto de datos de BigQuery deben estar en la misma región. |
DryRun | String | Especifica si la ejecución del trabajo es una prueba. El valor predeterminado es false . |
MaximumBadRecords | String | Especifica la cantidad de registros que pueden ser no válidos antes de que se cancele todo el trabajo. De forma predeterminada, todos los registros deben ser válidos. El valor predeterminado es 0 . |
IgnoreUnknownValues | String | Especifica si se deben ignorar los campos desconocidos en el archivo de entrada o si se deben tratar como errores. De forma predeterminada, se tratan como errores. El valor predeterminado es false . |
AvroUseLogicalTypes | String | Especifica si se deben usar tipos lógicos de Avro para convertir datos de Avro en tipos de BigQuery. El valor predeterminado es true . |
CSVSkipLeadingRows | String | Especifica la cantidad de filas que se deben omitir al comienzo de los archivos CSV. Por lo general, se usa para omitir las filas de encabezado. |
CSVEncoding | String | Es el tipo de codificación de los archivos CSV. Los siguientes son los valores admitidos:
|
CSVNullMarker | String | Si se proporciona, esta cadena se usa para valores NULL en los archivos CSV. De forma predeterminada, los archivos CSV no pueden usar NULL. |
CSVFieldDelimiter | String | Es el carácter que se usa para separar las columnas en los archivos CSV. El valor predeterminado es una coma (, ). |
CSVQuote | String | Es el carácter que se usa para los campos entrecomillados en los archivos CSV. Se puede establecer en vacío para inhabilitar las comillas. El valor predeterminado es comillas dobles (" ). |
CSVAllowQuotedNewlines | String | Especifica si los archivos CSV pueden contener saltos de línea dentro de los campos entre comillas. El valor predeterminado es false . |
CSVAllowJaggedRows | String | Especifica si los archivos CSV pueden contener campos faltantes. El valor predeterminado es false . |
DSBackupProjectionFields | String | Es una lista JSON de campos que se cargarán desde una copia de seguridad de Cloud Datastore. |
ParquetOptions | String | Un objeto JSON que especifica las opciones de importación específicas de Parquet. |
DecimalTargetTypes | String | Una lista JSON que indica el orden de preferencia aplicado a los tipos numéricos. |
HivePartitioningOptions | String | Un objeto JSON que especifica las opciones de particionamiento del lado del código fuente. |
Ejecuta una consulta de SQL personalizada
Para crear una consulta personalizada, sigue estos pasos:
- Sigue las instrucciones detalladas para agregar una tarea de conectores.
- Cuando configures la tarea del conector, en el tipo de acción que deseas realizar, selecciona Acciones.
- En la lista Acción, selecciona Ejecutar consulta personalizada y, luego, haz clic en Listo.
- Expande la sección Task input y haz lo siguiente:
- En el campo Timeout after, ingresa la cantidad de segundos que se espera hasta que se ejecute la consulta.
Valor predeterminado:
180
segundos. - En el campo Cantidad máxima de filas, ingresa la cantidad máxima de filas que se mostrarán desde la base de datos.
Valor predeterminado:
25
. - Para actualizar la consulta personalizada, haz clic en Editar secuencia de comandos personalizada. Se abrirá el diálogo Editor de secuencia de comandos.
- En el diálogo Editor de secuencia de comandos, ingresa la consulta de SQL y haz clic en Guardar.
Puedes usar un signo de interrogación (?) en una sentencia SQL para representar un solo parámetro que se debe especificar en la lista de parámetros de consulta. Por ejemplo, la siguiente consulta de SQL selecciona todas las filas de la tabla
Employees
que coinciden con los valores especificados para la columnaLastName
:SELECT * FROM Employees where LastName=?
- Si usaste signos de interrogación en tu consulta de SQL, debes agregar el parámetro haciendo clic en + Agregar nombre de parámetro para cada signo de interrogación. Mientras se ejecuta la integración, estos parámetros reemplazan los signos de interrogación (?) en la consulta SQL de forma secuencial. Por ejemplo, si agregaste tres signos de interrogación (?), debes agregar tres parámetros en orden de secuencia.
Para agregar parámetros de consulta, haz lo siguiente:
- En la lista Tipo, selecciona el tipo de datos del parámetro.
- En el campo Valor, ingresa el valor del parámetro.
- Para agregar varios parámetros, haz clic en + Agregar parámetro de consulta.
- En el campo Timeout after, ingresa la cantidad de segundos que se espera hasta que se ejecute la consulta.
Usa Terraform para crear conexiones
Puedes usar el recurso de Terraform para crear una conexión nueva.
Si deseas obtener más información para aplicar o quitar una configuración de Terraform, consulta los comandos básicos de Terraform.
Para ver una plantilla de Terraform de ejemplo para la creación de conexiones, consulta la plantilla de ejemplo.
Cuando crees esta conexión con Terraform, debes establecer las siguientes variables en tu archivo de configuración de Terraform:
Nombre del parámetro | Tipo de datos | Obligatorio | Descripción |
---|---|---|---|
project_id | STRING | Verdadero | Es el ID del proyecto que contiene el conjunto de datos de BigQuery. p.ej., myproject. |
dataset_id | STRING | Falso | Es el ID del conjunto de datos de BigQuery sin el nombre del proyecto, p. ej., mydataset. |
proxy_enabled | BOOLEAN | Falso | Selecciona esta casilla de verificación para configurar un servidor proxy para la conexión. |
proxy_auth_scheme | ENUM | Falso | Es el tipo de autenticación que se usará para autenticarse en el proxy de ProxyServer. Los valores admitidos son: BASIC, DIGEST, NONE |
proxy_user | STRING | Falso | Es un nombre de usuario que se usará para autenticarse en el proxy de ProxyServer. |
proxy_password | SECRET | Falso | Es una contraseña que se usará para autenticarse en el proxy de ProxyServer. |
proxy_ssltype | ENUM | Falso | Es el tipo de SSL que se usará para conectarse al proxy de ProxyServer. Los valores admitidos son: AUTO, ALWAYS, NEVER y TUNNEL. |
Limitaciones del sistema
El conector de BigQuery puede procesar un máximo de 8 transacciones por segundo por nodo y limita las transacciones que superen este límite. De forma predeterminada, los conectores de integración asignan 2 nodos (para una mejor disponibilidad) a una conexión.
Para obtener información sobre los límites aplicables a Integration Connectors, consulta Límites.
Tipos de datos admitidos
Los siguientes son los tipos de datos admitidos para este conector:
- ARRAY
- BIGINT
- BINARY
- BIT
- BOOLEAN
- CHAR
- DATE
- DECIMAL
- DOUBLE
- FLOAT
- INTEGER
- LONGN VARCHAR
- LONG VARCHAR
- NCHAR
- NUMERIC
- NVARCHAR
- REAL
- SMALL INT
- TIME
- TIMESTAMP
- TINY INT
- VARBINARY
- VARCHAR
Problemas conocidos
El conector de BigQuery no admite la clave primaria en una tabla de BigQuery. Esto significa que no puedes realizar las operaciones de entidad Get, Update y Delete con un entityId
.
Como alternativa, puedes usar la cláusula de filtro para filtrar los registros según un ID.
Obtén ayuda de la Comunidad de Google Cloud
Puedes publicar tus preguntas y debatir sobre este conector en la comunidad de Google Cloud en Cloud Forums.
¿Qué sigue?
- Obtén información para suspender y reanudar una conexión.
- Obtén información para supervisar el uso de los conectores.
- Obtén información para ver los registros de los conectores.