Introducción a la carga, transformación y exportación de datos

En este documento se describen los métodos de integración de datos para cargar y transformar datos en BigQuery mediante los procesos de extracción, carga y transformación (ELT) o de extracción, transformación y carga (ETL). También se describe cómo exportar datos de BigQuery para aplicar las estadísticas en otros sistemas, lo que se conoce como ETL inverso.

Decidir entre ELT o ETL

Es habitual transformar los datos antes o después de cargarlos en BigQuery. Una decisión fundamental es si se deben transformar los datos antes de cargarlos en BigQuery (estrategia de extracción, transformación y carga o ETL) o si se deben cargar los datos sin procesar en BigQuery y realizar las transformaciones con BigQuery (estrategia de extracción, carga y transformación o ELT).

En el siguiente gráfico se muestran las distintas opciones para integrar datos en BigQuery, ya sea mediante ELT o ETL.

Un árbol de decisión de productos que se usan en flujos de trabajo de ELT o ETL para integrar datos en BigQuery

En general, recomendamos el enfoque ELT a la mayoría de los clientes. El flujo de trabajo de ELT divide la compleja integración de datos en dos partes gestionables: extracción y carga, y luego transformación. Los usuarios pueden elegir entre varios métodos de carga de datos que se adapten a sus necesidades. Una vez que sus datos se han cargado en BigQuery, los usuarios que conozcan SQL pueden desarrollar flujos de procesamiento de transformación con herramientas como Dataform.

En las siguientes secciones se describe cada flujo de trabajo con más detalle.

Cargar y transformar datos

Es habitual transformar los datos antes o después de cargarlos en BigQuery. En las siguientes secciones se describen los dos enfoques habituales de la integración de datos: ETL y ELT.

Enfoque de integración de datos mediante ELT

Con el enfoque de extracción, carga y transformación (ELT), la integración de datos se realiza en dos pasos independientes:

  • Extraer y cargar datos
  • Transformar datos

Por ejemplo, puedes extraer y cargar datos de una fuente de archivos JSON en una tabla de BigQuery. Después, puede usar las canalizaciones para extraer y transformar campos en tablas de destino.

El enfoque ELT puede simplificar tu flujo de trabajo de integración de datos de las siguientes formas:

  • Elimina la necesidad de usar otras herramientas de tratamiento de datos
  • Divide el proceso de integración de datos, que suele ser complejo, en dos partes fáciles de gestionar.
  • Aprovecha al máximo las funciones de BigQuery para preparar, transformar y optimizar tus datos a gran escala

Extracción y carga de datos

En el enfoque de integración de datos ELT, se extraen datos de una fuente de datos y se cargan en BigQuery mediante cualquiera de los métodos admitidos para cargar o acceder a datos externos.

Transformar datos en BigQuery

Una vez que haya cargado los datos en BigQuery, podrá prepararlos y transformarlos con las siguientes herramientas:

  • Para crear, probar, documentar y programar de forma colaborativa flujos de procesamiento de datos de SQL avanzados, usa Dataform.
  • Para flujos de trabajo de transformación de datos más pequeños que ejecuten código SQL, cuadernos de Python o preparaciones de datos de forma programada, usa flujos de procesamiento de BigQuery.
  • Para limpiar los datos y prepararlos para el análisis, usa la preparación de datos mejorada con IA.

Cada una de estas herramientas se basa en la API Dataform.

Para obtener más información, consulta el artículo Introducción a las transformaciones.

Enfoque de integración de datos mediante ETL

Con la estrategia de extracción, transformación y carga (ETL), extraes y transformas los datos antes de que lleguen a BigQuery. Este enfoque es útil si ya tienes un proceso de transformación de datos o si quieres reducir el uso de recursos en BigQuery.

Cloud Data Fusion puede ayudarte a facilitar el proceso de ETL. BigQuery también funciona con partners de terceros que transforman y cargan datos en BigQuery.

Exportar datos

Una vez que hayas procesado y analizado los datos en BigQuery, puedes exportar los resultados para aplicarlos en otros sistemas. BigQuery admite las siguientes exportaciones:

  • Exportar los resultados de una consulta a un archivo local, Google Drive o Hojas de cálculo de Google
  • Exportar tablas o resultados de consultas a Cloud Storage, Bigtable, Spanner y Pub/Sub

Este proceso se denomina "ETL inverso".

Para obtener más información, consulta la introducción a la exportación de datos en BigQuery.

Siguientes pasos