En el panorama actual, basado en datos, las empresas buscan continuamente formas más eficientes de gestionar y analizar grandes cantidades de información. El proceso de extracción, carga y transformación (ELT) es un enfoque moderno de integración de datos que se adapta especialmente bien a los entornos en la nube. Entender ELT es clave para cualquier persona que trabaje en arquitectura de datos, ingeniería de datos o analíticas, ya que puede ofrecer ventajas claras en cuanto a velocidad, flexibilidad y escalabilidad para gestionar diversos conjuntos de datos. Este enfoque cambia el momento y el lugar en los que se produce la transformación de datos, lo que abre nuevas posibilidades para su uso.
ELT corresponde a las siglas de Extract, Load y Transform (extraer, cargar y transformar) y se refiere al proceso que permite extraer, cargar y transformar datos. Es un modelo de flujo de procesamiento de datos en el que los datos se extraen primero de varios sistemas de origen. Después, en lugar de transformarse en una zona de preparación independiente, los datos sin procesar se cargan directamente en un almacén de datos de destino, como un data lake o un almacén de datos en la nube. Las transformaciones solo se aplican después de que los datos se carguen en el sistema de destino.
Esta secuencia diferencia el ELT de su predecesor, el ETL (extraer, transformar y cargar), y es un motivo clave para su creciente adopción en arquitecturas nativas de la nube.
El flujo de procesamiento de datos ELT aprovecha el potencial y la escalabilidad de las plataformas modernas de almacenamiento y procesamiento de datos. Vamos a desglosar cada parte:
El proceso de ELT ofrece flexibilidad porque las transformaciones no se fijan antes de la carga. Los científicos de datos, por ejemplo, pueden acceder a los datos en bruto para explorar patrones imprevistos o hacer análisis ad hoc, mientras que los equipos de inteligencia empresarial pueden crear conjuntos de datos seleccionados y transformados para crear informes.
El proceso de extracción, carga y transformación ofrece varias ventajas potenciales, sobre todo en entornos que gestionan grandes volúmenes de datos y diversos tipos de datos:
Aunque ELT ofrece varias ventajas, también puede plantear ciertas cuestiones que las empresas deben abordar:
Abordar estos retos de forma proactiva puede ayudar a las empresas a aprovechar al máximo las ventajas del paradigma ELT.
Es importante conocer la diferencia entre el proceso de ELT y el proceso más tradicional de ETL (extraer, transformar y cargar) para elegir la estrategia de integración de datos adecuada. La principal diferencia radica en cuándo se produce el paso de transformación y dónde se lleva a cabo.
Función | ELT (extraer, cargar y transformar) | ETL (extraer, transformar y cargar) |
Orden de las operaciones | Extrae, carga y transforma | Extrae, transforma y carga |
Ubicación de la transformación | En el almacén de datos de destino (data lake o almacén de datos) | En un entorno de área de staging o de herramienta de ETL independiente |
Datos cargados en el objetivo | Datos sin procesar ni transformar | Datos limpios, estructurados y transformados |
Potencia de procesamiento | Aprovecha el potencial del almacén de datos de destino | Depende de un motor de ETL o de un servidor de staging específico |
Velocidad de ingestión de datos | Normalmente, es más rápido cargar los datos al principio | Puede ser más lento debido al procesamiento de transformación previo |
Flexibilidad para nuevas aplicaciones | Alta, ya que los datos sin procesar están disponibles para su transformación | Menor, ya que las transformaciones están predefinidas |
Tratamiento de esquemas | Adecuado para el esquema en lectura | A menudo se basa en el esquema en tiempo de escritura |
Idoneidad del tipo de datos | Excelente para datos estructurados, semiestructurados y sin estructurar | Ideal para datos estructurados y semiestructurados |
Uso de recursos | Optimiza el uso de almacenes de datos en la nube escalables | Puede que se requiera una infraestructura independiente para las transformaciones |
Función
ELT (extraer, cargar y transformar)
ETL (extraer, transformar y cargar)
Orden de las operaciones
Extrae, carga y transforma
Extrae, transforma y carga
Ubicación de la transformación
En el almacén de datos de destino (data lake o almacén de datos)
En un entorno de área de staging o de herramienta de ETL independiente
Datos cargados en el objetivo
Datos sin procesar ni transformar
Datos limpios, estructurados y transformados
Potencia de procesamiento
Aprovecha el potencial del almacén de datos de destino
Depende de un motor de ETL o de un servidor de staging específico
Velocidad de ingestión de datos
Normalmente, es más rápido cargar los datos al principio
Puede ser más lento debido al procesamiento de transformación previo
Flexibilidad para nuevas aplicaciones
Alta, ya que los datos sin procesar están disponibles para su transformación
Menor, ya que las transformaciones están predefinidas
Tratamiento de esquemas
Adecuado para el esquema en lectura
A menudo se basa en el esquema en tiempo de escritura
Idoneidad del tipo de datos
Excelente para datos estructurados, semiestructurados y sin estructurar
Ideal para datos estructurados y semiestructurados
Uso de recursos
Optimiza el uso de almacenes de datos en la nube escalables
Puede que se requiera una infraestructura independiente para las transformaciones
ELT es el patrón de integración de datos que recomienda Google Cloud. El proceso de ELT consiste en extraer datos de los sistemas de origen, cargarlos en BigQuery y, a continuación, transformarlos en el formato deseado para analizarlos.A diferencia de la estrategia ETL (extraer, transformar y cargar), que consiste en transformar los datos antes de cargarlos en un almacén de datos, la estrategia ELT te permite usar todo el potencial de BigQuery para realizar transformaciones de datos y cualquier usuario de SQL puede desarrollar flujos de procesamiento de integración de datos de forma eficaz.
La elección entre ELT y ETL suele depender de casos prácticos específicos, la infraestructura existente, los volúmenes de datos y las necesidades analíticas de la empresa. En muchas arquitecturas de datos modernas, también se puede utilizar un enfoque híbrido, que usa tanto ELT como ETL para distintas partes del flujo de procesamiento.
El patrón ELT es especialmente eficaz en una variedad de escenarios de datos modernos:
Almacenamiento de datos en la nube
ELT es una solución ideal para las plataformas de datos en la nube, como BigQuery de Google Cloud, que ofrecen un enorme potencial de procesamiento y una escalabilidad excepcionales para gestionar las transformaciones de grandes conjuntos de datos de forma eficiente.
Análisis de Big Data
Cuando se trata de volúmenes enormes, alta velocidad y una gran variedad de datos, ELT permite la ingestión rápida en un data lake o en un almacenamiento escalable. Después, se pueden aplicar transformaciones según sea necesario mediante frameworks de procesamiento distribuido.
Implementación de data lakes
Los data lakes están diseñados para almacenar grandes cantidades de datos en bruto en su formato nativo. Los procesos de ELT cargan estos datos sin procesar, y varios motores de analíticas y de procesamiento pueden transformarlos y consumirlos.
Procesamiento de datos en tiempo real o casi en tiempo real
En los casos prácticos que requieren un acceso rápido a datos nuevos, ELT puede agilizar la fase de carga. Después, se pueden realizar transformaciones en subconjuntos de estos datos para crear paneles de control o aplicaciones específicos casi en tiempo real.
Análisis exploratorio de datos y ciencia de datos
Los científicos de datos suelen preferir acceder a datos sin transformar y en bruto para realizar la ingeniería de funciones, crear modelos de aprendizaje automático y descubrir información valiosa sin estar limitados por transformaciones predefinidas. ELT hace que estos datos sin procesar estén disponibles fácilmente.
Consolidar diversas fuentes de datos
Cuando se trata de integrar datos de numerosos sistemas dispares con estructuras diferentes, ELT simplifica la ingestión inicial al cargar todos los datos en una ubicación central y, a continuación, armonizarlos mediante transformaciones.
Google Cloud ofrece un paquete completo de servicios que ayudan a optimizar las arquitecturas ELT, lo que permite a las empresas crear flujos de procesamiento de datos sólidos y escalables. El objetivo es aprovechar el potencial de servicios como BigQuery para realizar transformaciones en la propia base de datos.
A continuación, se explica cómo se suelen utilizar los servicios de Google Cloud en los patrones ELT:
La infraestructura de Google Cloud cumple los principios básicos del ELT, ya que proporciona almacenamiento escalable para datos sin procesar, funciones de carga rápida y un potente motor en BigQuery para realizar transformaciones de forma eficiente. De esta forma, los ingenieros de datos pueden crear flujos de procesamiento en los que los datos se almacenen rápidamente y se refinen en función de requisitos analíticos específicos, todo ello en un entorno gestionado y sin servidor.
Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.