Se usó la API de Cloud Translation para traducir esta página.

Introducción a la carga de datos

En este documento, se explica cómo puedes cargar datos en BigQuery. Los dos enfoques comunes para la integración de datos son extraer, cargar y transformar (ELT) o extraer, transformar y cargar (ETL) datos.

Para obtener una descripción general de los enfoques de ELT y ETL, consulta Introducción a la carga, transformación y exportación de datos.

Métodos para cargar o acceder a datos externos

En la página de BigQuery, en el diálogo Add data, puedes ver todos los métodos disponibles para cargar datos en BigQuery o acceder a datos desde BigQuery. Elige una de las siguientes opciones según tu caso de uso y tus fuentes de datos:

Método de carga	Descripción
Carga por lotes	Este método es adecuado para cargar por lotes grandes volúmenes de datos de una variedad de fuentes. Para la carga por lotes o incremental de datos desde Cloud Storage y otras fuentes de datos compatibles, te recomendamos usar el Servicio de transferencia de datos de BigQuery. Con el Servicio de transferencia de datos de BigQuery, puedes programar trabajos de carga para automatizar las canalización de carga de datos en BigQuery. Puedes programar transferencias de datos únicas o por lotes en intervalos regulares (por ejemplo, diarios o mensuales). Para asegurarte de que tus datos de BigQuery siempre estén actualizados, puedes supervisar y registrar tus transferencias. Para obtener una lista de las fuentes de datos que admite el Servicio de transferencia de datos de BigQuery, consulta Fuentes de datos admitidas.
Carga de transmisión	Este método permite cargar datos casi en tiempo real desde sistemas de mensajería. Para transmitir datos a BigQuery, puedes usar una suscripción a BigQuery en Pub/Sub. Pub/Sub puede manejar una alta capacidad de procesamiento de cargas de datos en BigQuery. Admite la transmisión de datos en tiempo real y la carga de datos a medida que se generan. Para obtener más información, consulta Suscripciones a BigQuery.
Captura de datos modificados (CDC)	Este método permite replicar datos de bases de datos a BigQuery casi en tiempo real. Datastream puede transmitir datos de bases de datos a datos de BigQuery con replicación casi en tiempo real. Datastream aprovecha las capacidades de la CDC para hacer un seguimiento y replicar los cambios a nivel de las filas de tus fuentes de datos. Para obtener una lista de las fuentes de datos compatibles con Datastream, consulta Fuentes.
Federación a fuentes de datos externas	Este método permite el acceso a datos externos sin cargarlos en BigQuery. BigQuery admite el acceso a fuentes de datos externas seleccionadas a través de Cloud Storage y consultas federadas. La ventaja de este método es que no necesitas cargar los datos antes de transformarlos para usarlos posteriormente. Para realizar la transformación, ejecuta instrucciones `SELECT` en los datos externos.

También puedes usar los siguientes métodos programáticos para cargar los datos:

Método de carga Descripción

Carga por lotes Puedes cargar datos desde Cloud Storage o desde un archivo local mediante la creación de un trabajo de carga.

Si los datos de origen cambian con poca frecuencia o no necesitas resultados actualizados continuamente, los trabajos de carga pueden ser una forma menos costosa y menos intensiva en recursos de cargar tus datos en BigQuery.

Los datos cargados pueden estar en formato Avro, CSV, JSON, ORC o Parquet. Para crear el trabajo de carga, también puedes usar la instrucción de SQL LOAD DATA.

Los sistemas populares de código abierto, como Spark y varios socios de ETL, también admiten la carga de datos por lotes en BigQuery.

Carga de transmisión Si debes admitir fuentes de datos de transmisión personalizadas o procesar los datos antes de transmitirlos con un gran rendimiento a BigQuery, usa Dataflow.

Para obtener más información sobre cómo cargar datos desde Dataflow a BigQuery, consulta Escribe desde Dataflow a BigQuery.

También puedes usar directamente la API de BigQuery Storage Write.

Método de carga	Descripción
Carga por lotes	Puedes cargar datos desde Cloud Storage o desde un archivo local mediante la creación de un trabajo de carga. Si los datos de origen cambian con poca frecuencia o no necesitas resultados actualizados continuamente, los trabajos de carga pueden ser una forma menos costosa y menos intensiva en recursos de cargar tus datos en BigQuery. Los datos cargados pueden estar en formato Avro, CSV, JSON, ORC o Parquet. Para crear el trabajo de carga, también puedes usar la instrucción de SQL `LOAD DATA`. Los sistemas populares de código abierto, como Spark y varios socios de ETL, también admiten la carga de datos por lotes en BigQuery.
Carga de transmisión	Si debes admitir fuentes de datos de transmisión personalizadas o procesar los datos antes de transmitirlos con un gran rendimiento a BigQuery, usa Dataflow. Para obtener más información sobre cómo cargar datos desde Dataflow a BigQuery, consulta Escribe desde Dataflow a BigQuery. También puedes usar directamente la API de BigQuery Storage Write.

Cloud Data Fusion puede facilitar tu proceso de ETL. BigQuery también funciona con socios externos que transforman y cargan datos en BigQuery.

BigQuery te permite crear conexiones externas para consultar datos que se almacenan fuera de BigQuery en Google Cloud servicios como Cloud Storage o Spanner, o en fuentes de terceros, como Amazon Web Services (AWS) o Microsoft Azure. Estas conexiones externas usan la API de BigQuery Connection. Para obtener más información, consulta Introducción a las conexiones.

Otras formas de adquirir datos

Puedes ejecutar consultas en los datos sin tener que cargarlos en BigQuery. En las siguientes secciones, se describen algunas alternativas.

En la siguiente lista, se describen algunas de las alternativas:

Ejecuta consultas en datos públicos

Los conjuntos de datos públicos son conjuntos que se almacenan en BigQuery y se comparten con el público. Para obtener más información, consulta los conjuntos de datos públicos de BigQuery.

Ejecuta consultas en datos compartidos

Para ejecutar consultas en un conjunto de datos de BigQuery que alguien compartió contigo, consulta Descripción general de BigQuery sharing (anteriormente Analytics Hub). Sharing es una plataforma de intercambio de datos que permite el uso compartido de datos.

Ejecuta consultas con datos de registro

Puedes ejecutar consultas en registros sin crear trabajos de carga adicionales:

Cloud Logging te permite enrutar registros a un destino de BigQuery.
Log Analytics te permite ejecutar consultas que analizan tus datos de registro.

¿Qué sigue?

Aprende a preparar datos con Gemini en BigQuery.
Obtén más información para transformar datos con Dataform.
Obtén más información para supervisar los trabajos de carga en el explorador de trabajos administrativos y las métricas de BigQuery.