Ir a

¿Qué es ETL?

ETL significa, en inglés, extracción, transformación y carga; es una forma tradicional aceptada en que las organizaciones combinan datos de varios sistemas en una sola base de datos, almacén de datos o data lake. ETL puede usarse a fin de almacenar datos heredados o, lo más común hoy en día, agregar datos para analizar y mejorar la toma de decisiones empresariales.  

Las organizaciones llevan décadas usando ETL. La novedad es que las fuentes de datos y las bases de datos de destino ahora se trasladaron a la nube.

Además, vimos el surgimiento de las canalizaciones de ETL de transmisión, que se unificaron junto con las canalizaciones por lotes; es decir, las canalizaciones que administran transmisiones continuas de datos en tiempo real en comparación con los datos administrados por lotes de agregación. Algunas empresas ejecutan procesos de transmisión continuos con canalizaciones de reprocesamiento o reabastecimiento por lotes incorporadas.

Obtén información sobre la cartera de servicios de Google Cloud que permiten ETL, incluidos Cloud Data Fusion, Dataflow y Dataproc.

Definición de ETL

ETL describe el proceso de extremo a extremo mediante el cual una empresa toma la totalidad de los datos, estructurados y no estructurados administrados por cualquier cantidad de equipos en cualquier parte del mundo, y los lleva a un estado útil para los fines empresariales.

Las soluciones modernas de ETL deben enfrentarse a la aceleración del volumen y la velocidad de los datos. Además, la capacidad de transferir, enriquecer y administrar transacciones, y admitir datos estructurados y no estructurados en tiempo real de cualquier fuente, ya sea local o en la nube, son requisitos básicos para las soluciones de ETL empresariales de hoy en día.

Cómo funciona la ETL basada en la nube

Extracción

La extracción es el proceso de recuperar datos de una o más fuentes (en línea, locales, heredadas, SaaS o cualquier otra). Luego de que se completa la recuperación, o extracción, los datos se cargan en una zona de etapa de pruebas.

Transformación

La transformación comprende tomar datos, limpiarlos y darles un formato común para que puedan almacenarse en una base de datos, un almacén de datos o un data lake de destino. La limpieza, por lo general, implica quitar los registros duplicados, incompletos o con errores.

Carga

La carga es el proceso de insertar los datos formateados en la base de datos, el almacén de datos o el data lake de destino.

Casos de uso de ETL

ETL es una forma importante de juntar todos los datos relevantes en un mismo lugar para que sean prácticos, a fin de analizarlos y permitir que los ejecutivos, los administradores y otras partes interesadas puedan tomar decisiones empresariales informadas. Por lo general, ETL se usa para hacer lo siguiente:

Almacenamiento de datos

Un almacén de datos es una base de datos en la que se combinan datos de varias fuentes a fin de que puedan analizarse de manera colectiva con fines empresariales. A menudo, ETL se usa para mover datos a un almacén.

Inteligencia artificial y aprendizaje automático

El aprendizaje automático (AA) es una forma de darle sentido a los datos sin programar modelos analíticos de manera explícita. En cambio, el sistema aprende de los datos mediante técnicas de inteligencia artificial. ETL puede usarse para mover los datos a una sola ubicación con fines de AA.

Integración de datos de marketing

La integración de datos de marketing comprende mover todos los datos de marketing, como clientes, redes sociales y datos de estadísticas web, a un solo lugar con el objetivo de que puedas analizarlos y hacer planes a futuro. ETL se usa para recolectar y preparar datos de marketing.

Integración de datos de IoT

IoT es el conjunto de dispositivos conectados capaces de recopilar y transmitir datos mediante sensores incorporados en el hardware. Los dispositivos de IoT pueden incluir equipo de fábricas, servidores de red, smartphones, o una amplia variedad de otras máquinas, incluso wearables y dispositivos implantados. ETL ayuda a mover datos desde varias fuentes de IoT hasta un solo lugar en el que puedas analizarlos.

Replicación de bases de datos

La replicación de bases de datos toma datos de tus bases de datos de origen, como Oracle, Cloud SQL para MySQL, Microsoft SQL Server, Cloud SQL para PostgreSQL, MongoDB u otras, y los copia en el almacén de datos en la nube. Puede ser una operación de una sola vez o un proceso continuo a medida que los datos se actualizan, y se puede usar ETL para replicarlos.

Migración a la nube

Las empresas están trasladando sus datos y aplicaciones desde instalaciones locales hasta la nube para ahorrar dinero, hacer que las aplicaciones sean más escalables y proteger los datos. ETL suele usarse para realizar estas migraciones.