El proceso de extracción, transformación y carga (ETL) es el método que se ha utilizado tradicionalmente en las empresas para combinar datos de varios sistemas en una base, un almacén de datos o un data lake. El proceso de ETL permite almacenar datos antiguos o agregar datos (lo más habitual hoy en día) para analizarlos y basar en ellos las decisiones empresariales.
Las organizaciones llevan décadas usando el proceso ETL. La novedad ahora es que tanto los orígenes de datos como las bases de datos de destino se están migrando a la nube.
Además, empiezan a aparecer flujos de procesamiento de ETL de streaming (gestionan flujos continuos de datos en tiempo real) que se están unificando con los flujos de procesamiento por lotes (gestionan datos incluidos en lotes agregados). Algunas empresas combinan la ejecución de procesos de streaming continuos con flujos de procesamiento de reposición o reprocesamiento por lotes.
Obtén información sobre la cartera de servicios de Google Cloud que habilitan el proceso de ETL, como Cloud Data Fusion, Dataflow y Dataproc.
¿Empezamos? Los nuevos clientes reciben 300 USD en crédito gratis para invertirlos en Google Cloud.
ETL describe el proceso integral por el cual las empresas recogen todos sus datos (estructurados, sin estructurar y gestionados por equipos de cualquier parte del mundo) para ponerlos en un estado que tenga utilidad empresarial.
Las soluciones modernas de ETL deben tener la capacidad de admitir el incesante aumento en el volumen y la rapidez de los datos. También tienen que ingerir, enriquecer y gestionar transacciones, además de aceptar datos estructurados y sin estructurar en tiempo real de cualquier origen, tanto on‑premise como en la nube. Cualquier solución actual de ETL empresarial debe cumplir ya todos esos requisitos básicos.
Extracción
La extracción es el proceso que consiste en obtener datos de fuentes online, on‑premise, antiguas, de software como servicio (SaaS) o de otro tipo. Una vez completada la extracción, los datos se cargan en el área de stage.
Transformación
La transformación es el proceso que consiste en limpiar esos datos y darles el mismo formato para que se puedan almacenar en la base, el almacén de datos o el data lake de destino. Por lo general, la limpieza implica eliminar registros duplicados, incompletos o claramente erróneos.
Cargando
La carga es el proceso que consiste en insertar los datos, con el formato ya aplicado, en la base, el almacén de datos o el data lake de destino.
El proceso de extracción, transformación y carga (ETL) es un método clave para reunir en un solo lugar todos los datos pertinentes y darles distintas utilidades, como analizarlos para que los ejecutivos, los administradores y otras partes interesadas tomen decisiones empresariales fundamentadas en ellos. Por lo general, ETL se usa para lo siguiente:
Almacenamiento de datos
Los almacenes de datos son bases de datos en las que se combinan datos de fuentes diversas para analizarlos de forma conjunta con fines empresariales. ETL se suele utilizar para transferir datos a los almacenes de datos.
Aprendizaje automático e inteligencia artificial
El aprendizaje automático es un método para dar sentido a los datos sin programar expresamente modelos analíticos. En vez de eso, el sistema aprende de los datos aplicando técnicas de inteligencia artificial. El proceso de ETL sirve para transferir los datos a la ubicación donde se quieren ejecutar las tareas de aprendizaje automático.
Integración de datos de marketing
La integración de datos de marketing implica transferir todos los datos de marketing (como datos de clientes, redes sociales y analíticas web) a la misma ubicación para analizarlos y trazar planes de futuro. El proceso de ETL se emplea para recoger y preparar esos datos.
Integración de datos de Internet de las cosas
Por Internet de las cosas se entiende el conjunto de dispositivos conectados que pueden recopilar y transmitir datos por medio de sensores insertados en el hardware. Hay muchos dispositivos de Internet de las cosas, como máquinas de fábricas, servidores de red, smartphones o toda una serie de equipos más, incluso aparatos implantados o que se llevan puestos. El proceso de extracción, transformación y carga (ETL) permite transferir los datos de varios orígenes de Internet de las cosas a una ubicación donde puedas analizarlos.
Replicación de bases de datos
Para replicar bases de datos, se copian los datos de las bases de origen (por ejemplo, Oracle, Cloud SQL para MySQL, Microsoft SQL Server, Cloud SQL para PostgreSQL MongoDB, etc.) en tu almacén de datos en la nube. Puedes hacer esta operación una sola vez o ejecutarla como un proceso continuo a medida que se actualicen los datos. En este caso, el proceso ETL se usa para replicar los datos.
Migración a la nube
Las empresas están trasladando sus datos y aplicaciones del entorno on‑premise a la nube para ahorrar dinero, aumentar la escalabilidad de las aplicaciones y proteger los datos. El proceso de extracción, transformación y carga (ETL) se suele emplear para ejecutar esas migraciones.
Empieza a crear en Google Cloud con 300 USD en crédito gratis y más de 20 productos Always Free.