O que é ETL?

ETL é a sigla para o processo de extrair, transformar e carregar. É uma forma tradicionalmente aceita para que as organizações combinem dados de vários sistemas em um único banco de dados, repositório de dados, armazenamento de dados ou data lake. O ETL pode ser usado para armazenar dados legados, ou, o que é mais comum, agregar dados para analisar e impulsionar as decisões de negócios.  

As organizações usam ETL há décadas. Mas a novidade é que tanto as origens de dados quanto o banco de dados de destino estão migrando para a nuvem.

Além disso, temos observado o surgimento de pipelines de ETL de streaming, que agora são unificados em pipelines em lote, ou seja, pipelines que processam fluxos contínuos de dados em tempo real versus dados processados em lotes agregados. Algumas empresas executam processos contínuos de streaming com preenchimento em lotes ou reprocessamento de pipelines integrados na combinação.

Saiba mais sobre o portfólio de serviços do Google Cloud que utilizam ETL, incluindo Cloud Data Fusion, Dataflow, e Dataproc.

ETL definido

O ETL descreve o processo completo em que uma empresa coleta todos os dados, estruturados e não estruturados, e gerenciados por qualquer número de equipes em todo o mundo, e os processa de forma que eles se tornem realmente úteis para fins comerciais.

As soluções modernas de ETL devem lidar com o volume e a velocidade cada vez maiores dos dados. Além disso, a capacidade de ingerir, enriquecer e gerenciar transações e oferecer suporte a dados estruturados e não estruturados em tempo real de qualquer origem, seja no local ou na nuvem, são requisitos básicos para as soluções corporativas de ETL.

Como o ETL baseado na nuvem funciona

Extração

Extração é o processo de recuperação de dados de uma ou mais origens, sejam elas on-line, locais, legadas, SaaS ou outras. Após a conclusão da recuperação ou extração, os dados são carregados em uma área de preparo.

Transformação

A transformação envolve pegar esses dados, limpá-los e colocá-los em um formato comum, para que possam ser armazenados em um banco de dados, repositório de dados, armazenamento de dados ou data lake de destino. A limpeza normalmente envolve extrair registros duplicados, incompletos ou obviamente incorretos.

Carregamento

Carregamento é o processo de inserir os dados formatados no banco de dados, repositório de dados, armazenamento de dados ou data lake de destino.

Casos de uso de ETL

O ETL é uma forma importante de reunir todos os dados relevantes em um só lugar para torná-los práticos de analisar e permitir que executivos, gerentes, e outras partes interessadas tomem decisões de negócios mais fundamentadas com base neles. O ETL é normalmente usado para fazer o seguinte:

Armazenamento de dados

O armazenamento de dados é um banco de dados em que dados de várias origens são combinados para que possam ser analisados coletivamente para fins comerciais. O ETL é geralmente usado para mover os dados para um armazenamento de dados.

Machine learning e inteligência artificial

Machine learning (ML) é uma maneira de dar sentido aos dados sem programar modelos analíticos explicitamente. Em vez disso, o sistema aprende com os dados usando técnicas de inteligência artificial. O ETL pode ser usado para mover os dados para um único local para finalidades de machine learning.

Integração de dados de marketing

A integração de dados de marketing envolve mover todos os seus dados de marketing, como clientes, redes sociais e dados de análise da web, para um único lugar, para que você possa analisá-los e desenvolver planos futuros. O ETL é usado para coletá-los e prepará-los.

Integração de dados de Internet das Coisas (IoT, na sigla em inglês)

IoT é a coleção de dispositivos conectados capazes de reunir e transmitir dados por meio de sensores incorporados no hardware. Os dispositivos de IoT podem incluir equipamentos de fábrica, servidores de rede, smartphones ou uma ampla variedade de outras máquinas, até mesmo wearables e dispositivos implantados. O ETL ajuda a mover os dados de várias origens de IoT para um único lugar onde você pode analisá-los.

Réplica do banco de dados

A réplica do banco de dados pega os dados dos seus bancos de dados de origem, como Oracle, Cloud SQL para MySQL, Microsoft SQL Server, Cloud SQL para PostgreSQL, MongoDB ou outros—e copia esses dados para seu armazenamento de dados na nuvem. Isso pode ser uma operação única ou um processo contínuo à medida que seus dados são atualizados, e o ETL pode ser usado para replicar os dados.

Migração para a nuvem

As empresas estão movendo seus dados e aplicativos do local para a nuvem para economizar dinheiro, tornar seus aplicativos mais escalonáveis e proteger seus dados, e o ETL é muito usado para executar essas migrações.