¿Qué es ETL?

ETL significa, en inglés, extracción, transformación y carga; es una forma tradicional aceptada en que las organizaciones combinan datos de varios sistemas en una sola base de datos, almacén de datos o data lake. ETL puede usarse a fin de almacenar datos heredados o, lo más común hoy en día, agregar datos para analizar y mejorar la toma de decisiones empresariales.  

Las organizaciones llevan décadas usando ETL. La novedad es que las fuentes de datos y las bases de datos de destino ahora se trasladaron a la nube.

Además, vimos el surgimiento de las canalizaciones de ETL de transmisión, que se unificaron junto con las canalizaciones por lotes; es decir, las canalizaciones que administran transmisiones continuas de datos en tiempo real en comparación con los datos administrados por lotes de agregación. Algunas empresas ejecutan procesos de transmisión continuos con canalizaciones de reprocesamiento o reabastecimiento por lotes incorporadas.

Obtén información sobre la cartera de servicios de Google Cloud que permiten ETL, incluidos el Servicio de transferencia de datos de BigQuery, Dataflow y Dataform.

¿Todo listo para comenzar? Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Google Cloud.

Video Dataflow para ETL y la integración en tiempo real
Dataflow para ETL y la integración en tiempo real

Definición de ETL

ETL describe el proceso de extremo a extremo mediante el cual una empresa toma la totalidad de los datos, estructurados y no estructurados administrados por cualquier cantidad de equipos en cualquier parte del mundo, y los lleva a un estado útil para los fines empresariales.

Las soluciones modernas de ETL deben enfrentarse a la aceleración del volumen y la velocidad de los datos. Además, la capacidad de transferir, enriquecer y administrar transacciones, y admitir datos estructurados y no estructurados en tiempo real de cualquier fuente, ya sea local o en la nube, son requisitos básicos para las soluciones de ETL empresariales de hoy en día.

¿Por qué es importante ETL?

ETL (extracción, transformación y carga) ha sido la piedra angular de la integración de datos durante décadas y sigue siendo relevante en las arquitecturas de datos modernas. ETL ofrece varias ventajas potenciales:

  • Calidad de los datos: La calidad y coherencia de los datos suelen mejorarse en los procesos de ETL a través de pasos de limpieza y transformación.
  • Administración de datos: ETL puede ayudar a aplicar las políticas de administración de datos, ya que garantiza que los datos se transformen y carguen en el sistema de destino de una manera coherente y que cumpla con las normativas.
  • Sistemas heredados: ETL se usa a menudo para integrar datos de sistemas heredados que podrían no ser compatibles con arquitecturas de datos modernas.
  • Transformaciones complejas: Las herramientas de ETL suelen ofrecer una amplia variedad de capacidades de transformación, lo que las hace adecuadas para tareas complejas de manipulación de datos.

Cómo funciona la ETL basada en la nube

Extracción

La extracción es el proceso de recuperar datos de una o más fuentes (en línea, locales, heredadas, SaaS o cualquier otra). Luego de que se completa la recuperación, o extracción, los datos se cargan en una zona de etapa de pruebas.

Transformación

La transformación comprende tomar datos, limpiarlos y darles un formato común para que puedan almacenarse en una base de datos, un almacén de datos o un data lake de destino. La limpieza, por lo general, implica quitar los registros duplicados, incompletos o con errores.

Cargando

La carga es el proceso de insertar los datos formateados en la base de datos, el almacén de datos o el data lake de destino.

ETL en comparación con ELT

Si bien ETL y ELT sirven como métodos de integración de datos, su distinción radica en el momento de la transformación de los datos. ETL procesa los datos transformándolos antes de cargarlos en el sistema de destino. En la ELT, los datos se cargan en el sistema de destino en su formato sin procesar y, luego, se transforman.

La elección entre ETL y ELT depende de varios factores, entre los que se incluyen los siguientes:

  • Volumen de datos: ELT suele ser más adecuado para grandes volúmenes de datos porque aprovecha la potencia de procesamiento de los almacenes de datos en la nube.
  • Complejidad de los datos: ETL se usa a menudo para transformaciones complejas que requieren herramientas y experiencia especializadas.
  • Sistema de destino: ELT es más adecuado para almacenes de datos y data lakes basados en la nube que tienen la potencia de procesamiento para manejar transformaciones.
  • Habilidades y recursos: ETL requiere habilidades y recursos especializados para desarrollar y mantener canalizaciones de transformación. ELT puede ser más fácil de implementar porque aprovecha los recursos de los almacenes de datos en la nube.

Resuelve tus desafíos más difíciles con Google Cloud

Los clientes nuevos obtienen $300 en créditos gratuitos que pueden usar en Google Cloud.
Habla con un especialista en ventas de Google Cloud para analizar tu desafío único en más detalle.

Casos de uso de ETL

ETL es una forma importante de juntar todos los datos relevantes en un mismo lugar para que sean prácticos, a fin de analizarlos y permitir que los ejecutivos, los administradores y otras partes interesadas puedan tomar decisiones empresariales informadas. Por lo general, ETL se usa para hacer lo siguiente:

Almacenamiento de datos

Un almacén de datos es una base de datos en la que se combinan datos de varias fuentes a fin de que puedan analizarse de manera colectiva con fines empresariales. A menudo, ETL se usa para mover datos a un almacén.

Inteligencia artificial y aprendizaje automático

El aprendizaje automático (AA) es una forma de darle sentido a los datos sin programar modelos analíticos de manera explícita. En cambio, el sistema aprende de los datos mediante técnicas de Inteligencia Artificial. ETL puede usarse para mover los datos a una sola ubicación con fines de AA.

Integración de datos de marketing

La integración de datos de marketing comprende mover todos los datos de marketing, como clientes, redes sociales y datos de estadísticas web, a un solo lugar con el objetivo de que puedas analizarlos y hacer planes a futuro. ETL se usa para recolectar y preparar datos de marketing.

Integración de datos de IoT

IoT es el conjunto de dispositivos conectados capaces de recopilar y transmitir datos mediante sensores incorporados en el hardware. Los dispositivos de IoT pueden incluir equipo de fábricas, servidores de red, smartphones, o una amplia variedad de otras máquinas, incluso wearables y dispositivos implantados. ETL ayuda a mover datos desde varias fuentes de IoT hasta un solo lugar en el que puedas analizarlos.

Replicación de bases de datos

La replicación de bases de datos toma datos de tus bases de datos de origen, como Oracle, Cloud SQL para MySQL, Microsoft SQL Server, Cloud SQL para PostgreSQL, MongoDB u otras, y los copia en el almacén de datos en la nube. Puede ser una operación de una sola vez o un proceso continuo a medida que los datos se actualizan, y se puede usar ETL para replicarlos.

Migración a la nube

Las empresas están trasladando sus datos y aplicaciones desde instalaciones locales hasta la nube para ahorrar dinero, hacer que las aplicaciones sean más escalables, proteger los datos y aprovechar las innovaciones de la IA. ETL suele usarse para realizar estas migraciones.

Da el siguiente paso

Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.

Google Cloud