Ir a

¿Qué es ETL?

El proceso de extracción, transformación y carga (ETL) es el método que se ha utilizado tradicionalmente en las organizaciones para combinar datos de varios sistemas en una base, un almacén o un lago de datos. El proceso ETL permite almacenar datos antiguos o agregar datos (lo más habitual hoy en día) para analizarlos y basar en ellos las decisiones empresariales.  

Las organizaciones llevan décadas usando el proceso ETL. La novedad ahora es que tanto las fuentes de datos como las bases de datos de destino se están migrando a la nube.

Además, empiezan a aparecer flujos de procesamiento de ETL de streaming (gestionan flujos continuos de datos en tiempo real) que se están unificando con los flujos de procesamiento por lotes (gestionan datos incluidos en lotes agregados). Algunas empresas combinan la ejecución de procesos de streaming continuos con flujos de procesamiento de reposición o reprocesamiento por lotes.

Obtén información sobre la cartera de servicios de Google Cloud que habilitan el proceso ETL, como Cloud Data Fusion, Dataflow y Dataproc.

¿Empezamos? Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Google Cloud.

Definición de ETL

ETL describe el proceso integral por el cual las empresas recogen todos sus datos (estructurados, sin estructurar y gestionados por equipos de cualquier parte del mundo) para ponerlos en un estado que tenga utilidad empresarial.

Las soluciones modernas de ETL deben tener la capacidad de admitir el incesante aumento en el volumen y la rapidez de los datos. También tienen que ingerir, enriquecer y gestionar transacciones, además de aceptar datos estructurados y sin estructurar en tiempo real de cualquier fuente, tanto on‑premise como en la nube. Cualquier solución actual de ETL empresarial debe cumplir ya todos esos requisitos básicos.

¿Cómo funciona el proceso ETL basado en la nube?

Extracción

La extracción es el proceso que consiste en obtener datos de fuentes online, on‑premise, antiguas, de software como servicio (SaaS) o de otro tipo. Una vez completada la extracción, los datos se cargan en el área de stage.

Transformación

La transformación es el proceso que consiste en limpiar esos datos y darles el mismo formato para que se puedan almacenar en la base, el almacén o el lago de datos de destino. Por lo general, la limpieza implica eliminar registros duplicados, incompletos o claramente erróneos.

Carga

La carga es el proceso que consiste en insertar los datos, con el formato ya aplicado, en la base, el almacén o el lago de datos de destino.

Soluciona los retos más complejos que se te presenten con Google Cloud.

Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Google Cloud.
Primeros pasos
Habla con un especialista del equipo de ventas de Google Cloud para hablar sobre tu reto único con más detalle.
Contactar

¿Cuáles son los usos del proceso ETL?

El proceso ETL es un método clave para reunir en un solo lugar todos los datos pertinentes y darles distintas utilidades, como analizarlos para que los ejecutivos, los administradores y otras partes interesadas tomen decisiones empresariales fundamentadas en ellos. Por lo general, el proceso ETL se usa para lo siguiente:

Almacenamiento de datos

Los almacenes de datos son bases de datos en las que se combinan datos de fuentes diversas para analizarlos de forma conjunta con fines empresariales. El proceso ETL se utiliza a menudo para transferir datos a los almacenes.

Aprendizaje automático e inteligencia artificial

El aprendizaje automático es un método para dar sentido a los datos sin programar expresamente modelos analíticos. En vez de eso, el sistema aprende de los datos aplicando técnicas de inteligencia artificial (IA). El proceso ETL sirve para transferir los datos a la ubicación donde se quieren ejecutar las tareas de aprendizaje automático.

Integración de datos de marketing

La integración de datos de marketing implica transferir todos los datos de marketing (como datos de clientes, redes sociales y analíticas web) a la misma ubicación para analizarlos y trazar planes de futuro. El proceso ETL se emplea para recoger y preparar dichos datos.

Integración de datos de Internet de las cosas

Por Internet de las cosas se entiende la colección de dispositivos conectados que pueden recopilar y transmitir datos por medio de sensores insertados en el hardware. Hay muchos dispositivos de Internet de las cosas, como máquinas de fábricas, servidores de red, smartphones o toda una serie de equipos más, incluso aparatos implantados o que se llevan puestos. El proceso ETL permite transferir los datos de varias fuentes de Internet de las cosas a una ubicación donde puedas analizarlos.

Replicación de bases de datos

Para replicar bases de datos, se copian los datos de las bases de origen (por ejemplo, Oracle, Cloud SQL para MySQL o PostgreSQL, Microsoft SQL Server, MongoDB, etc.) en tu almacén de datos en la nube. Puedes hacer esta operación una sola vez o ejecutarla como un proceso continuo a medida que se actualicen los datos. En este caso, el proceso ETL se usa para replicar los datos.

Migración a la nube

Las empresas están trasladando sus datos y aplicaciones del entorno on‑premise a la nube para ahorrar dinero, aumentar la escalabilidad de las aplicaciones y proteger los datos. El proceso ETL se suele emplear para ejecutar esas migraciones.