BigQuery

El conector de BigQuery te permite realizar operaciones de inserción, eliminación, actualización y lectura en datos de Google BigQuery.

Antes de comenzar

Antes de usar el conector de BigQuery, realiza las siguientes tareas:

  • En tu proyecto de Google Cloud, haz lo siguiente:
    • Otorga el rol de IAM roles/connectors.admin al usuario que configura el conector.
    • Otorga los siguientes roles de IAM a la cuenta de servicio que deseas usar para el conector:
      • roles/bigquery.dataEditor

      Una cuenta de servicio es un tipo de Cuenta de Google especial que representa a un usuario no humano que debe autenticarse y tener autorización para acceder a los datos de las APIs de Google. Si no tienes una cuenta de servicio, debes crear una. Para obtener más información, consulta Crea una cuenta de servicio.

    • Habilita los siguientes servicios:
      • secretmanager.googleapis.com (API de Secret Manager)
      • connectors.googleapis.com (API de conectores)

      Para comprender cómo habilitar servicios, consulta Habilita servicios.

    Si estos servicios o permisos no se habilitaron antes para tu proyecto, se te solicitará que los habilites cuando configures el conector.

Configura el conector

Para configurar el conector, debes crear una conexión a tu fuente de datos (sistema de backend). Una conexión es específica de una fuente de datos. Significa que, si tienes muchas fuentes de datos, debes crear una conexión independiente para cada fuente. Para crear una conexión, sigue estos pasos:

  1. En la consola de Cloud, ve a la página Conectores de Integration > Conexiones y, luego, selecciona o crea un proyecto de Google Cloud.

    Ir a la página Conexiones

  2. Haz clic en + CREAR NUEVO para abrir la página Crear conexión.
  3. En la sección Ubicación, elige la ubicación para la conexión.
    1. Región: selecciona una ubicación de la lista desplegable.

      Para obtener la lista de todas las regiones compatibles, consulta Ubicaciones.

    2. Haga clic en SIGUIENTE.
  4. En la sección Detalles de la conexión, completa lo siguiente:
    1. Conector: Selecciona BigQuery en la lista desplegable de conectores disponibles.
    2. Versión del conector: selecciona la versión del conector de la lista desplegable de versiones disponibles.
    3. En el campo Nombre de la conexión, ingresa un nombre para la instancia de conexión.

      Los nombres de las conexiones deben cumplir con los siguientes criterios:

      • Los nombres de las conexiones pueden usar letras, números o guiones.
      • Las letras deben estar en minúsculas.
      • Los nombres de las conexiones deben comenzar con una letra y terminar con una letra o un número.
      • Los nombres de las conexiones no pueden superar los 63 caracteres.
    4. De manera opcional, ingresa una Descripción para la instancia de conexión.
    5. Cuenta de servicio: Selecciona una cuenta de servicio que tenga los roles necesarios.
    6. De manera opcional, configura los parámetros de nodo de conexión:

      • Cantidad mínima de nodos: Ingresa la cantidad mínima de nodos de conexión.
      • Cantidad máxima de nodos: Ingresa la cantidad máxima de nodos de conexión.

      Un nodo es una unidad (o réplica) de una conexión que procesa transacciones. Se requieren más nodos para procesar más transacciones para una conexión y, del mismo modo, se requieren menos para procesar menos transacciones. Para comprender cómo los nodos afectan el precio del conector, consulta Precios de nodos de conexión. Si no ingresas ningún valor, se establecen de forma predeterminada los nodos mínimos en 2 (para una mejor disponibilidad) y los nodos máximos se establecen en 50.

    7. ID del proyecto: Ingresa el ID del proyecto de Google Cloud en el que residen los datos.
    8. ID del conjunto de datos: Es el ID del conjunto de datos de BigQuery.
    9. Usar proxy: selecciona esta casilla de verificación a fin de configurar un servidor proxy para la conexión y configurar los siguientes valores:
      • Esquema de autenticación del proxy: Selecciona el tipo de autenticación para autenticar con el servidor proxy. Se admiten los siguientes tipos de autenticación:
        • Básico: Autenticación HTTP básica.
        • Resumen: Autenticación de HTTP de resumen.
      • Usuario de proxy: Un nombre de usuario que se usará para autenticarse con el servidor proxy.
      • Contraseña de proxy: el secreto de Secret Manager de la contraseña del usuario.
      • Tipo de SSL del proxy: el tipo de SSL que se usará para conectarse al servidor del proxy. Se admiten los siguientes tipos de autenticación:
        • Automático: Configuración predeterminada. Si la URL es HTTPS, se usa la opción Túnel. Si la URL es una URL HTTP, se usa la opción NUNCA.
        • Siempre: La conexión siempre está habilitada para SSL.
        • Nunca: La conexión no está habilitada para SSL.
        • Túnel: La conexión se realiza a través de un proxy de túnel. El servidor proxy abre una conexión con el host remoto y el tráfico fluye de un lado a otro a través del proxy.
      • En la sección Proxy Server, ingresa los detalles del servidor proxy.
        1. Haz clic en Agregar destino.
        2. Selecciona un Tipo de destino.
          • Dirección del host: Especifica el nombre de host o la dirección IP del destino.

            Si deseas establecer una conexión privada a tu sistema de backend, haz lo siguiente:

    10. De forma opcional, haz clic en + AGREGAR ETIQUETA para agregar una etiqueta a la conexión en forma de un par clave-valor.
    11. Haga clic en SIGUIENTE.
  5. En la sección Autenticación, ingresa los detalles de autenticación.
    1. La conexión de BigQuery no requiere ninguna autenticación.
    2. Haga clic en SIGUIENTE.
  6. Revisa: Revisa tus detalles de conexión y autenticación.
  7. Haz clic en Crear.

Entidades, operaciones y acciones

Todos los Integration Connectors proporcionan una capa de abstracción para los objetos de la aplicación conectada. Solo puedes acceder a los objetos de una aplicación a través de esta abstracción. La abstracción se expone como entidades, operaciones y acciones.

  • Entidades: Una entidad puede considerarse como un objeto o una colección de propiedades en la aplicación o servicio conectados. La definición de una entidad difiere de conector a conector. Por ejemplo, en un conector de bases de datos, las tablas son las entidades; en un conector de servidor de archivos, las carpetas son las entidades; en un conector de sistema de mensajería, las colas son las entidades.

    Sin embargo, es posible que un conector no admita o tenga ninguna entidad, en cuyo caso la lista Entities estará vacía.

  • Operaciones: Una operación es la actividad que puedes realizar en una entidad. Puedes realizar cualquiera de las siguientes operaciones en una entidad:

    Cuando se selecciona una entidad de la lista disponible, se genera una lista de operaciones disponibles para esa entidad. Para obtener una descripción detallada de las operaciones, consulta las operaciones de entidades de la tarea de conectores. Sin embargo, si un conector no admite ninguna de las operaciones de entidad, tales operaciones no compatibles no aparecerán en la lista Operations.

  • Acción: Una acción es una función de primera clase que está disponible para la integración mediante la interfaz de Conectores. Una acción te permite realizar cambios en una entidad o entidades y variar de un conector a otro. Sin embargo, es posible que un conector no admita ninguna acción, en cuyo caso la lista Actions estará vacía.

Limitaciones del sistema

El conector de BigQuery puede procesar un máximo de 8 transacciones por segundo por nodo y limita cualquier transacción que supere este límite. De forma predeterminada, Integration Connectors asigna 2 nodos (para una mejor disponibilidad) a una conexión.

Para obtener más información sobre los límites aplicables a Integration Connectors, consulta Límites.

Tipos de datos admitidos

A continuación, se indican los tipos de datos admitidos para este conector:

  • BIGINT
  • BINARY
  • BIT
  • BOOLEAN
  • CHAR
  • FECHA
  • DECIMAL
  • DOUBLE
  • FLOAT
  • INTEGER
  • LONGN VARCHAR
  • VARCHAR LARGO
  • NCHAR
  • NUMERIC
  • NVARCHAR
  • REAL
  • INT PEQUEÑO
  • TIEMPO
  • TIMESTAMP
  • TINY INT
  • VARBINARY
  • VARCHAR

Problemas conocidos

El conector de BigQuery no admite la clave primaria en una tabla de BigQuery. Significa que no puedes realizar las operaciones Obtener, actualizar y borrar mediante una entityId. De manera alternativa, puedes usar la cláusula de filtro para filtrar registros según un ID.

Acciones

En esta sección, se describen las acciones disponibles en el conector de BigQuery.

Acción CancelJob

Esta acción te permite cancelar un trabajo de BigQuery en ejecución.

En la siguiente tabla, se describen los parámetros de entrada de la acción CancelJob.

Nombre del parámetro Tipo de dato Descripción
JobId String El ID del trabajo que deseas cancelar. Este es un campo obligatorio.
Región String La región en la que el trabajo se está ejecutando actualmente. Esto no es obligatorio si el trabajo está en una región de EE.UU. o de la UE.

Acción GetJob

Esta acción te permite recuperar la información de configuración y el estado de ejecución de un trabajo existente.

En la siguiente tabla, se describen los parámetros de entrada de la acción GetJob.

Nombre del parámetro Tipo de dato Descripción
JobId String El ID del trabajo para el que deseas recuperar la configuración. Este es un campo obligatorio.
Región String La región en la que el trabajo se está ejecutando actualmente. Esto no es obligatorio si el trabajo está en una región de EE.UU. o de la UE.

Acción InsertJob

Esta acción te permite insertar un trabajo de BigQuery, que luego se puede seleccionar para recuperar los resultados de la consulta.

En la siguiente tabla, se describen los parámetros de entrada de la acción InsertJob.

Nombre del parámetro Tipo de dato Descripción
Consulta String Es la consulta que se envía a BigQuery. Este es un campo obligatorio.
IsDML String Se debe configurar como true si la consulta es una declaración DML o como false. El valor predeterminado es false.
DestinationTable String La tabla de destino para la consulta, en formato DestProjectId:DestDatasetId.DestTable.
WriteDisposition String Especifica cómo escribir datos en la tabla de destino, como truncar resultados existentes, agregar resultados existentes o escribir solo cuando la tabla está vacía. Estos son los valores admitidos:
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
El valor predeterminado es WRITE_TRUNCATE.
DryRun String Especifica si la ejecución del trabajo es de prueba.
MaximumBytesBilled String Especifica la cantidad máxima de bytes que puede procesar el trabajo. BigQuery cancela el trabajo si este intenta procesar más bytes que el valor especificado.
Región String Especifica la región en la que debe ejecutarse el trabajo.

Acción InsertLoadJob

Esta acción te permite insertar un trabajo de carga de BigQuery, que agrega datos de Google Cloud Storage a una tabla existente.

En la siguiente tabla, se describen los parámetros de entrada de la acción InsertLoadJob.

Nombre del parámetro Tipo de dato Descripción
SourceURIs String Una lista separada por espacios de URI de Google Cloud Storage.
SourceFormat String Es el formato de origen de los archivos. A continuación, se indican los valores admitidos:
  • AVRO
  • NEWLINE_DELIMITED_JSON
  • DATASTORE_BACKUP
  • PARQUET
  • ORC
  • CSV
DestinationTable String La tabla de destino para la consulta, en formato DestProjectId.DestDatasetId.DestTable.
DestinationTableProperties String Un objeto JSON que especifica el nombre para la tabla, la descripción y la lista de etiquetas.
DestinationTableSchema String Una lista JSON que especifica los campos usados para crear la tabla.
DestinationEncryptionConfiguration String Un objeto JSON que especifica la configuración de encriptación de KMS para la tabla.
SchemaUpdateOptions String Una lista JSON que especifica las opciones que se deben aplicar cuando se actualiza el esquema de la tabla de destino.
TimePartitioning String Un objeto JSON que especifica el tipo y el campo de partición de tiempo.
RangePartitioning String Un objeto JSON que especifica el campo de partición por rango y los buckets.
Agrupamiento en clústeres String Un objeto JSON que especifica los campos que se usarán para el agrupamiento en clústeres.
Detectar automáticamente String Especifica si se deben determinar automáticamente las opciones y el esquema para los archivos JSON y CSV.
CreateDisposition String Especifica si la tabla de destino debe crearse en caso de que aún no exista. A continuación, se admiten los valores admitidos:
  • CREATE_IF_NEEDED
  • CREATE_NEVER
El valor predeterminado es CREATE_IF_NEEDED.
WriteDisposition String Especifica cómo escribir datos en la tabla de destino, por ejemplo, truncar resultados existentes, agregar resultados existentes o escribir solo cuando la tabla está vacía. Estos son los valores admitidos:
  • WRITE_TRUNCATE
  • WRITE_APPEND
  • WRITE_EMPTY
El valor predeterminado es WRITE_APPEND.
Región String Especifica la región en la que debe ejecutarse el trabajo. Los recursos de Google Cloud Storage y el conjunto de datos de BigQuery deben estar en la misma región.
DryRun String Especifica si la ejecución del trabajo es de prueba. El valor predeterminado es false.
MaximumBadRecords String Especifica la cantidad de registros que pueden no ser válidos antes de que se cancele todo el trabajo. De forma predeterminada, todos los registros deben ser válidos. El valor predeterminado es 0.
IgnoreUnknownValues String Especifica si los campos desconocidos se deben ignorar en el archivo de entrada o si se deben tratar como errores. De forma predeterminada, se tratan como errores. El valor predeterminado es false.
AvroUseLogicalTypes String Especifica si se deben usar tipos lógicos AVRO para convertir datos de AVRO en tipos de BigQuery. El valor predeterminado es true.
CSVSkipLeadingRows String Especifica cuántas filas se deben omitir al comienzo de los archivos CSV. Por lo general, se usa para omitir filas de encabezado.
CSVEncoding String Tipo de codificación de los archivos CSV. A continuación, se indican los valores admitidos:
  • ISO-8859-1
  • UTF-8
El valor predeterminado es UTF-8.
CSVNullMarker String Si se proporciona, esta string se usa para valores NULL dentro de archivos CSV. De forma predeterminada, los archivos CSV no pueden usar NULL.
CSVFieldDelimiter String Es el carácter que se utiliza para separar columnas dentro de archivos CSV. El valor predeterminado es una coma (,).
CSVQuote String El carácter que se usa para los campos entrecomillados en archivos CSV. Se puede establecer como vacío para inhabilitar las comillas. El valor predeterminado son comillas dobles (").
CSVAllowQuotedNewlines String Especifica si los archivos CSV pueden contener saltos de línea en campos entrecomillados. El valor predeterminado es false.
CSVAllowJaggedRows String Especifica si los archivos CSV pueden contener campos faltantes. El valor predeterminado es false.
DSBackupProjectionFields String Una lista JSON de los campos que se cargarán desde una copia de seguridad del almacén de datos en la nube.
ParquetOptions String Un objeto JSON que especifica las opciones de importación específicas de Parquet.
DecimalTargetTypes String Una lista JSON que proporciona el orden de preferencia aplicado a los tipos numéricos.
HivePartitioningOptions String Un objeto JSON que especifica las opciones de partición del lado del origen.

Ejecutar consulta en SQL personalizada

Para crear una consulta personalizada, sigue estos pasos:

  1. Sigue las instrucciones detalladas para agregar una tarea de conectores.
  2. Cuando configures la tarea del conector, selecciona Acciones en el tipo de acción que desees realizar.
  3. En la lista Acción, selecciona Ejecutar consulta personalizada y, luego, haz clic en Listo.
  4. Expande la sección Entrada de tarea y, luego, haz lo siguiente:
    1. En el campo Tiempo de espera después, ingresa el número de segundos que se debe esperar hasta que se ejecute la consulta.

      Valor predeterminado: 180 segundos.

    2. En el campo Cantidad máxima de filas, ingresa la cantidad máxima de filas que se mostrarán en la base de datos.

      Valor predeterminado: 25.

    3. Para actualizar la consulta personalizada, haz clic en Editar consulta personalizada. Se abrirá el diálogo Editor de secuencias de comandos.
    4. En el cuadro de diálogo Editor de secuencias de comandos, ingresa la consulta en SQL y haz clic en Guardar.

      Puedes usar un signo de interrogación (?) en una instrucción de SQL para representar un único parámetro que debe especificarse en la lista de parámetros de consulta. Por ejemplo, la siguiente consulta en SQL selecciona todas las filas de la tabla Employees que coinciden con los valores especificados para la columna LastName:

      SELECT * FROM Employees where LastName=?

    5. Si usaste signos de interrogación en la consulta en SQL, debes agregar el parámetro. Para ello, haz clic en + Agregar nombre del parámetro en cada signo de interrogación. Mientras se ejecuta la integración, estos parámetros reemplazan los signos de interrogación (?) en la consulta en SQL de forma secuencial. Por ejemplo, si agregaste tres signos de interrogación (?), entonces debes agregar tres parámetros en orden de secuencia. Para agregar parámetros de consulta, haz lo siguiente:
      1. En la lista Tipo, selecciona el tipo de datos del parámetro.
      2. En el campo Valor, ingresa el valor del parámetro.
      3. Para agregar varios parámetros, haz clic en + Agregar parámetro de consulta.

Usa Terraform para crear conexiones

Puedes usar el recurso de Terraform para crear una conexión nueva.

Si deseas obtener más información para aplicar o quitar una configuración de Terraform, consulta los comandos básicos de Terraform.

Si quieres ver una plantilla de muestra de Terraform para crear conexiones, consulta la plantilla de muestra.

Cuando creas esta conexión en Terraform, debes establecer las siguientes variables en tu archivo de configuración de Terraform:

Nombre del parámetro Tipo de datos Requeridos Descripción
project_id STRING Verdadero ID del proyecto que contiene el conjunto de datos de BigQuery, p. ej., miproyecto.
dataset_id STRING Falso ID del conjunto de datos de BigQuery sin el nombre del proyecto, p. ej., conjunto de datos
proxy_enabled BOOLEAN Falso Selecciona esta casilla de verificación para configurar un servidor proxy para la conexión.
proxy_auth_scheme ENUM Falso El tipo de autenticación que se usará para autenticar en el proxy de ProxyServer. Los valores admitidos son BASIC, DIGEST y NONE.
proxy_user STRING Falso Un nombre de usuario que se usará para autenticarse en el proxy de ProxyServer.
proxy_password SECRET Falso Una contraseña que se utilizará para autenticarse en el proxy de ProxyServer.
proxy_ssltype ENUM Falso El tipo de SSL que se usará cuando se establezca la conexión con el proxy de ProxyServer. Los valores admitidos son AUTO, ALWAYS, NEVER, TUNNEL.

Usa la conexión de BigQuery en una integración

Después de crear la conexión, estará disponible en Apigee Integration y en Application Integration. Puedes usar la conexión en una integración mediante la tarea Conectores.

  • Para comprender cómo crear y usar la tarea Conectores en la integración de Apigee, consulta la Tarea Conectores.
  • Para comprender cómo crear y usar la tarea Conectores en Application Integration, consulta la tarea Conectores.

Obtén ayuda de la Comunidad de Google Cloud

Puedes publicar tus preguntas y debatir sobre este conector en la comunidad de Google Cloud en Cloud Forums.

¿Qué sigue?