Introducción a la carga de datos

En este documento, se explica cómo puedes cargar datos en BigQuery. Los dos enfoques comunes para la integración de datos son extraer, cargar y transformar (ELT) o extraer, transformar y cargar (ETL) datos.

Para obtener una descripción general de los enfoques de ELT y ETL, consulta Introducción a la carga, transformación y exportación de datos.

Métodos para cargar o acceder a datos externos

Puedes usar los siguientes métodos para cargar datos en BigQuery o acceder a ellos desde BigQuery. Elige una de las siguientes opciones según tu caso de uso y tus fuentes de datos:

Método de carga Descripción
Carga por lotes Este método es adecuado para cargar por lotes grandes volúmenes de datos de una variedad de fuentes.

Para la carga por lotes o incremental de datos desde Cloud Storage y otras fuentes de datos admitidas, te recomendamos usar el Servicio de transferencia de datos de BigQuery.

Con el Servicio de transferencia de datos de BigQuery, puedes programar trabajos de carga para automatizar los flujos de trabajo de carga de datos en BigQuery. Puedes programar transferencias de datos únicas o por lotes en intervalos regulares (por ejemplo, diarios o mensuales). Para asegurarte de que tus datos de BigQuery siempre estén actualizados, puedes supervisar y registrar tus transferencias.

Para obtener una lista de las fuentes de datos que admite el Servicio de transferencia de datos de BigQuery, consulta Fuentes de datos admitidas.
Carga de transmisión Este método permite cargar datos casi en tiempo real desde sistemas de mensajería.

Para transmitir datos a BigQuery, puedes usar una suscripción a BigQuery en Pub/Sub. Pub/Sub puede manejar una alta capacidad de procesamiento de cargas de datos en BigQuery. Admite la transmisión de datos en tiempo real y la carga de datos a medida que se generan. Para obtener más información, consulta Suscripciones a BigQuery.
Captura de datos modificados (CDC) Este método permite replicar datos de bases de datos a BigQuery casi en tiempo real.

Datastream puede transmitir datos de bases de datos a datos de BigQuery con replicación casi en tiempo real. Datastream aprovecha las capacidades de la CDC para hacer un seguimiento y replicar los cambios a nivel de la fila de tus fuentes de datos.

Para obtener una lista de las fuentes de datos compatibles con Datastream, consulta Fuentes.
Federación con fuentes de datos externas Este método permite el acceso a datos externos sin cargarlos en BigQuery.

BigQuery admite el acceso a fuentes de datos externas seleccionadas a través de Cloud Storage y consultas federadas. La ventaja de este método es que no necesitas cargar los datos antes de transformarlos para usarlos posteriormente. Para realizar la transformación, ejecuta instrucciones SELECT en los datos externos.

También puedes usar los siguientes métodos programáticos para cargar los datos:

Método de carga Descripción
Carga por lotes Puedes cargar datos desde Cloud Storage o desde un archivo local mediante la creación de un trabajo de carga.

Si los datos de origen cambian con poca frecuencia o no necesitas resultados actualizados continuamente, los trabajos de carga pueden ser una forma menos costosa y menos intensiva en recursos de cargar tus datos en BigQuery.

Los datos cargados pueden estar en formato Avro, CSV, JSON, ORC o Parquet. Para crear el trabajo de carga, también puedes usar la instrucción de SQL LOAD DATA.

Los sistemas de código abierto populares, como Spark y varios socios de ETL, también admiten la carga por lotes de datos en BigQuery.
Carga de transmisión Si debes admitir fuentes de datos de transmisión personalizadas o procesar los datos antes de transmitirlos con un alto rendimiento a BigQuery, usa Dataflow o BigQuery Engine para Apache Flink.

Para obtener más información sobre cómo cargar datos desde Dataflow a BigQuery, consulta Escribe desde Dataflow a BigQuery.

También puedes usar directamente la API de BigQuery Storage Write.

Cloud Data Fusion puede facilitar tu proceso de ETL. BigQuery también funciona con socios externos que transforman y cargan datos en BigQuery.

Otras formas de adquirir datos

Puedes ejecutar consultas en los datos sin tener que cargarlos en BigQuery. En las siguientes secciones, se describen algunas alternativas.

En la siguiente lista, se describen algunas de las alternativas:

Ejecuta consultas en datos públicos

Los conjuntos de datos públicos son conjuntos que se almacenan en BigQuery y se comparten con el público. Para obtener más información, consulta los conjuntos de datos públicos de BigQuery.

Ejecuta consultas en datos compartidos

Para ejecutar consultas en un conjunto de datos de BigQuery que alguien compartió contigo, consulta Introducción a Analytics Hub. Analytics Hub es una plataforma de intercambio de datos que permite compartir datos.

Ejecuta consultas con datos de registro

Puedes ejecutar consultas en registros sin crear trabajos de carga adicionales:

¿Qué sigue?