En el panorama actual basado en datos, las organizaciones buscan constantemente formas más eficientes de administrar y analizar grandes cantidades de información. El proceso ELT (extracción, carga y transformación) representa un enfoque moderno para la integración de datos, que es particularmente adecuado para entornos de nube. Comprender ELT es clave para cualquier persona involucrada en la arquitectura de datos, la ingeniería de datos o el análisis, ya que puede ofrecer ventajas únicas en velocidad, flexibilidad y escalabilidad para manejar diversos conjuntos de datos. Este enfoque cambia el momento y el lugar en que se produce la transformación de datos, lo que permite nuevas posibilidades para su uso.
ELT significa extracción, carga y transformación. Es un modelo de canalización de datos en el que los datos se extraen primero de varios sistemas de origen. Luego, en vez de transformarse en un área de preparación separada, los datos sin procesar se cargan directamente en un almacén de datos de destino, como un data lake o un almacén de datos en la nube. Las transformaciones se aplican solo después de que los datos se cargan en el sistema de destino.
Esta secuencia diferencia el ELT de su predecesor, el ETL (extracción, transformación y carga), y es una razón clave para su creciente adopción en arquitecturas nativas de la nube.
El flujo de proceso de ELT aprovecha la potencia y la escalabilidad de las plataformas modernas de almacenamiento y procesamiento de datos. Desglosemos cada componente:
El proceso de ELT ofrece flexibilidad porque las transformaciones no se fijan antes de la carga. Por ejemplo, los científicos de datos pueden acceder a los datos sin procesar para explorar patrones imprevistos o realizar análisis ad hoc, mientras que los equipos de inteligencia empresarial pueden crear conjuntos de datos seleccionados y transformados para generar informes.
El enfoque ELT ofrece varias ventajas potenciales, sobre todo en entornos que trabajan con grandes volúmenes de datos y diversos tipos de datos:
Si bien ELT ofrece varios beneficios, también puede presentar ciertas complicaciones que las organizaciones deben tratar de abordar:
Abordar estos desafíos de forma proactiva puede ayudar a las organizaciones a aprovechar al máximo las ventajas del paradigma ELT.
Comprender la distinción entre ELT y el proceso más tradicional de ETL (extraer, transformar y cargar) es importante para elegir la estrategia de integración de datos correcta. La diferencia principal radica en cuándo se produce el paso de transformación y dónde se realiza.
Función | ELT (extracción, carga, transformación) | ETL (extracción, transformación y carga) |
Orden de las operaciones | Extracción, carga y transformación | Extracción, transformación y carga |
Ubicación de transformación | Dentro del almacén de datos de destino (almacén de datos/data lake) | En un área de pruebas o un entorno de herramientas de ETL separados |
Datos cargados en el destino | Datos sin procesar ni transformar | Datos limpios, estructurados y transformados |
Poder de procesamiento | Aprovecha la potencia del almacén de datos de destino | Depende de un motor ETL o un servidor de transferencia |
Velocidad de transferencia de datos | Por lo general, es más rápido para cargar datos inicialmente. | Puede ser más lento debido al procesamiento por adelantado de las transformaciones. |
Flexibilidad para nuevos usos | Es alta, ya que los datos sin procesar están disponibles para la transformación. | Es menor, ya que las transformaciones están predefinidas. |
Administración de esquemas | Funciona bien en esquemas de lectura. | A menudo, se basa en el esquema de escritura. |
Idoneidad del tipo de datos | Es excelente para datos estructurados, semiestructurados y no estructurados. | Es la mejor opción para datos estructurados y algunos semiestructurados. |
Uso de recursos | Optimiza el uso de almacenes de datos en la nube escalables. | Es posible que se requiera una infraestructura separada para las transformaciones. |
Función
ELT (extracción, carga, transformación)
ETL (extracción, transformación y carga)
Orden de las operaciones
Extracción, carga y transformación
Extracción, transformación y carga
Ubicación de transformación
Dentro del almacén de datos de destino (almacén de datos/data lake)
En un área de pruebas o un entorno de herramientas de ETL separados
Datos cargados en el destino
Datos sin procesar ni transformar
Datos limpios, estructurados y transformados
Poder de procesamiento
Aprovecha la potencia del almacén de datos de destino
Depende de un motor ETL o un servidor de transferencia
Velocidad de transferencia de datos
Por lo general, es más rápido para cargar datos inicialmente.
Puede ser más lento debido al procesamiento por adelantado de las transformaciones.
Flexibilidad para nuevos usos
Es alta, ya que los datos sin procesar están disponibles para la transformación.
Es menor, ya que las transformaciones están predefinidas.
Administración de esquemas
Funciona bien en esquemas de lectura.
A menudo, se basa en el esquema de escritura.
Idoneidad del tipo de datos
Es excelente para datos estructurados, semiestructurados y no estructurados.
Es la mejor opción para datos estructurados y algunos semiestructurados.
Uso de recursos
Optimiza el uso de almacenes de datos en la nube escalables.
Es posible que se requiera una infraestructura separada para las transformaciones.
ELT es el patrón recomendado de Google Cloud para la integración de datos. La ELT implica extraer datos de los sistemas de origen, cargarlos en BigQuery y, luego, transformarlos en el formato deseado para el análisis. A diferencia del ETL (extraer, transformar y cargar), que implica transformar los datos antes de cargarlos en un almacén de datos, el enfoque ELT te permite usar toda la potencia de BigQuery para realizar transformaciones de datos y cualquier usuario de SQL para desarrollar de forma eficaz canalizaciones de integración de datos.
La elección entre ELT y ETL a menudo depende de casos de uso específicos, la infraestructura existente, los volúmenes de datos y las necesidades de análisis de la organización. En muchas arquitecturas de datos modernas, también se puede usar un enfoque híbrido, que combina ELT y ETL para diferentes partes de la canalización.
El patrón ELT es particularmente eficaz en una variedad de situaciones de datos modernas:
Almacenamiento de datos en la nube
ELT es una opción natural para las plataformas de datos en la nube, como BigQuery de Google Cloud, que ofrecen una inmensa capacidad de procesamiento y escalabilidad para manejar transformaciones en conjuntos de datos grandes de forma eficiente.
Análisis de macrodatos
Cuando se trata de volúmenes masivos, alta velocidad y una amplia variedad de datos, ELT permite la transferencia rápida a un data lake o almacenamiento escalable. Luego, las transformaciones se pueden aplicar según sea necesario con frameworks de procesamiento distribuido.
Implementación de data lakes
Los data lakes están diseñados para almacenar grandes cantidades de datos sin procesar en su formato nativo. Los procesos de ELT cargan esos datos para que varios motores de análisis y procesamiento puedan transformarlos y consumirlos.
Procesamiento de datos en tiempo real o casi en tiempo real
En los casos de uso que requieren acceso rápido a datos nuevos, ELT puede acelerar la fase de carga. Las transformaciones para paneles o aplicaciones específicos casi en tiempo real se pueden realizar en subconjuntos de estos datos.
Análisis exploratorio de datos y ciencia de datos
Los científicos de datos suelen preferir el acceso a datos sin procesar y no transformados para realizar ingeniería de atributos, crear modelos de aprendizaje automático y descubrir estadísticas sin estar limitados por transformaciones predefinidas. ELT pone a su alcance esos datos sin procesar.
Consolidación de diversas fuentes de datos
Cuando se integran datos de numerosos sistemas dispares con estructuras diferentes, ELT simplifica la transferencia inicial cargando todo en una ubicación central primero y, luego, armonizando los datos a través de transformaciones.
Google Cloud proporciona un paquete integral de servicios que ayudan a optimizar las arquitecturas de ELT, lo que permite a las organizaciones crear canalizaciones de datos sólidas y escalables. La base de todo es aprovechar la potencia de servicios como BigQuery para las transformaciones en la base de datos.
Esta es la forma en que los servicios de Google Cloud se suelen emplear en los patrones de ELT:
La infraestructura de Google Cloud admite los principios básicos de ELT, ya que proporciona almacenamiento escalable para datos sin procesar, capacidades de carga rápida y un motor potente en BigQuery para realizar transformaciones de manera eficiente. Así, los ingenieros de datos pueden crear canalizaciones en las que los datos se reciben rápidamente y, luego, se definen mejor según requisitos analíticos específicos, todo en un entorno administrado sin servidores.
Comienza a desarrollar en Google Cloud con el crédito gratis de $300 y los más de 20 productos del nivel Siempre gratuito.