Introducción a la carga de datos

En este documento se explica cómo puede cargar datos en BigQuery. Los dos enfoques habituales para la integración de datos son la extracción, carga y transformación (ELT) o la extracción, transformación y carga (ETL) de datos.

Para obtener una descripción general de los enfoques ELT y ETL, consulta el artículo Introducción a la carga, transformación y exportación de datos.

Métodos para cargar o acceder a datos externos

En la página de BigQuery, en el cuadro de diálogo Añadir datos, puedes ver todos los métodos disponibles para cargar datos en BigQuery o acceder a datos de BigQuery. Elige una de las siguientes opciones en función de tu caso práctico y tus fuentes de datos:

Método de carga Descripción
Carga por lotes Este método es adecuado para cargar por lotes grandes volúmenes de datos de varias fuentes.

Para cargar datos por lotes o de forma incremental desde Cloud Storage y otras fuentes de datos admitidas, te recomendamos que uses BigQuery Data Transfer Service.

Con BigQuery Data Transfer Service, puedes programar tareas de carga para automatizar las pipelines de carga de datos en BigQuery. Puede programar transferencias de datos únicas o por lotes a intervalos regulares (por ejemplo, diarias o mensuales). Para asegurarte de que tus datos de BigQuery estén siempre actualizados, puedes monitorizar y registrar tus transferencias.

Para ver una lista de las fuentes de datos compatibles con BigQuery Data Transfer Service, consulta Fuentes de datos admitidas.
Carga de transmisión Este método permite cargar datos casi en tiempo real desde sistemas de mensajería.

Para transmitir datos a BigQuery, puedes usar una suscripción de BigQuery en Pub/Sub. Pub/Sub puede gestionar un alto volumen de cargas de datos en BigQuery. Admite el streaming de datos en tiempo real, cargando los datos a medida que se generan. Para obtener más información, consulta Suscripciones de BigQuery.
Captura de datos de cambios (CDC) Este método permite replicar datos de bases de datos en BigQuery casi en tiempo real.

Datastream puede transmitir datos de bases de datos a datos de BigQuery con una replicación casi en tiempo real. Datastream aprovecha las funciones de CDC para monitorizar y replicar los cambios a nivel de fila de tus fuentes de datos.

Para ver una lista de las fuentes de datos que admite Datastream, consulta el artículo sobre las fuentes.
Federación con fuentes de datos externas Este método permite acceder a datos externos sin cargarlos en BigQuery.

BigQuery permite acceder a determinadas fuentes de datos externas mediante Cloud Storage y consultas federadas. La ventaja de este método es que no es necesario cargar los datos antes de transformarlos para usarlos posteriormente. Para realizar la transformación, ejecuta instrucciones SELECT sobre los datos externos.

También puedes usar los siguientes métodos programáticos para cargar los datos:

Método de carga Descripción
Carga por lotes Puedes cargar datos de Cloud Storage o de un archivo local creando una tarea de carga.

Si los datos de origen cambian con poca frecuencia o no necesitas que los resultados se actualicen continuamente, los trabajos de carga pueden ser una forma menos costosa y que requiere menos recursos de cargar los datos en BigQuery.

Los datos cargados pueden estar en formato Avro, CSV, JSON, ORC o Parquet. Para crear el trabajo de carga, también puedes usar la instrucción SQL LOAD DATA.

Sistemas populares de código abierto, como Spark y varios partners de ETL, también admiten la carga por lotes de datos en BigQuery.
Carga de transmisión Si tienes que admitir fuentes de datos de streaming personalizadas o preprocesar datos antes de enviarlos a BigQuery con un gran volumen, usa Dataflow.

Para obtener más información sobre cómo cargar datos de Dataflow a BigQuery, consulta el artículo sobre cómo escribir datos de Dataflow en BigQuery.

También puedes usar directamente la API Storage Write de BigQuery.

Cloud Data Fusion puede ayudarte a facilitar el proceso de ETL. BigQuery también funciona con partners de terceros que transforman y cargan datos en BigQuery.

BigQuery te permite crear conexiones externas para consultar datos que están almacenados fuera de BigQuery en Google Cloud servicios como Cloud Storage o Spanner, o en fuentes de terceros como Amazon Web Services (AWS) o Microsoft Azure. Estas conexiones externas usan la API Connection de BigQuery. Para obtener más información, consulta el artículo Introducción a las conexiones.

Otras formas de adquirir datos

Puedes ejecutar consultas en los datos sin tener que cargarlos en BigQuery. En las siguientes secciones se describen algunas alternativas.

En la siguiente lista se describen algunas de las alternativas:

Ejecutar consultas en datos públicos

Los conjuntos de datos públicos son conjuntos de datos almacenados en BigQuery y compartidos con el público. Para obtener más información, consulta los conjuntos de datos públicos de BigQuery.

Ejecutar consultas en datos compartidos

Para ejecutar consultas en un conjunto de datos de BigQuery que alguien ha compartido contigo, consulta el artículo Introducción a la función de compartir de BigQuery (antes Analytics Hub). Sharing es una plataforma de intercambio de datos que permite compartir datos.

Ejecutar consultas con datos de registro

Puedes ejecutar consultas en los registros sin crear trabajos de carga adicionales:

Siguientes pasos