No cenário atual de dados, as organizações buscam constantemente maneiras mais eficientes de gerenciar e analisar grandes quantidades de informações. O processo ELT, ou extração, carregamento e transformação, representa uma abordagem moderna de integração de dados, particularmente adequada para ambientes de nuvem. Entender o ELT é fundamental para quem trabalha com arquitetura de dados, engenharia de dados ou análises, porque ele oferece vantagens em velocidade, flexibilidade e escalonabilidade para lidar com diferentes conjuntos de dados. Essa abordagem muda quando e onde a transformação de dados ocorre, abrindo novas possibilidades para a utilização de dados.
ELT significa extrair, carregar e transformar. É um modelo de pipeline de dados em que os dados são extraídos primeiro de vários sistemas de origem. Em seguida, em vez de serem transformados em uma área de preparação separada, os dados brutos são carregados diretamente em um repositório de dados de destino, como um data lake ou um data warehouse em nuvem. As transformações só são aplicadas depois que os dados são carregados no sistema de destino.
Essa sequência diferencia o ELT do antecessor ETL (extrair, transformar, carregar) e é um dos principais motivos para a adoção crescente do ELT em arquiteturas nativas da nuvem.
O fluxo de processo ELT aproveita a capacidade e a escalonabilidade das plataformas modernas de armazenamento e processamento de dados. Vamos analisar cada componente:
O processo de ELT oferece flexibilidade porque as transformações não são fixadas antes do carregamento. Os cientistas de dados, por exemplo, podem acessar os dados brutos para explorar padrões imprevisíveis ou realizar análises ad hoc, enquanto as equipes de Business Intelligence podem criar conjuntos de dados selecionados e transformados para relatórios.
A abordagem ELT oferece várias vantagens em potencial, principalmente em ambientes que lidam com grandes volumes e diversos tipos de dados:
Embora o ELT ofereça vários benefícios, ele também pode apresentar certas considerações que as organizações precisam abordar:
Ao enfrentar esses desafios de forma proativa, as organizações podem aproveitar ao máximo as vantagens do paradigma ELT.
Entender a diferença entre ELT e o processo mais tradicional de ETL (extração, transformação e carregamento) é importante para escolher a estratégia de integração de dados certa. A principal diferença está em quando a etapa de transformação ocorre e onde ela é realizada.
Recurso | ELT (extração, carregamento e transformação) | ETL (extração, transformação, carregamento) |
Ordem de operações | Extrair, carregar e transformar | Extrair, transformar e carregar |
Local da transformação | No repositório de dados de destino (data warehouse/lake) | Em uma área de preparação separada ou ambiente de ferramenta ETL |
Dados carregados para o destino | Dados brutos e não transformados | Dados limpos, estruturados e transformados |
Poder de processamento | Aproveita o poder do repositório de dados de destino | Depende de um mecanismo de ETL dedicado ou servidor de preparação |
Velocidade de ingestão de dados | Normalmente, é mais rápido carregar os dados inicialmente | Pode ser mais lento devido ao processamento de transformação antecipado |
Flexibilidade para novos usos | Alta, porque os dados brutos estão disponíveis para serem transformados de novo | Menor, porque as transformações são predefinidas |
Gerenciamento de esquema | Adequado para esquema na leitura | Muitas vezes, depende do esquema na gravação |
Adequação do tipo de dados | Excelente para dados estruturados, semiestruturados e não estruturados | Melhor para dados estruturados e alguns semiestruturados |
Uso dos recursos | Otimização do uso de data warehouses em nuvem escalonáveis | Pode exigir infraestrutura separada para transformações |
Recurso
ELT (extração, carregamento e transformação)
ETL (extração, transformação, carregamento)
Ordem de operações
Extrair, carregar e transformar
Extrair, transformar e carregar
Local da transformação
No repositório de dados de destino (data warehouse/lake)
Em uma área de preparação separada ou ambiente de ferramenta ETL
Dados carregados para o destino
Dados brutos e não transformados
Dados limpos, estruturados e transformados
Poder de processamento
Aproveita o poder do repositório de dados de destino
Depende de um mecanismo de ETL dedicado ou servidor de preparação
Velocidade de ingestão de dados
Normalmente, é mais rápido carregar os dados inicialmente
Pode ser mais lento devido ao processamento de transformação antecipado
Flexibilidade para novos usos
Alta, porque os dados brutos estão disponíveis para serem transformados de novo
Menor, porque as transformações são predefinidas
Gerenciamento de esquema
Adequado para esquema na leitura
Muitas vezes, depende do esquema na gravação
Adequação do tipo de dados
Excelente para dados estruturados, semiestruturados e não estruturados
Melhor para dados estruturados e alguns semiestruturados
Uso dos recursos
Otimização do uso de data warehouses em nuvem escalonáveis
Pode exigir infraestrutura separada para transformações
O ELT é o padrão recomendado pelo Google Cloud para integração de dados. O ELT envolve a extração de dados de sistemas de origem, o carregamento deles no BigQuery e a transformação no formato desejado para análise. Ao contrário do ETL (extrair, transformar, carregar), que envolve a transformação de dados antes de serem carregados em um data warehouse, a abordagem ELT permite usar todo o poder do BigQuery para realizar transformações de dados e qualquer usuário de SQL para desenvolver pipelines de integração de dados com eficiência.
A escolha entre ELT e ETL geralmente depende de casos de uso específicos, infraestrutura existente, volumes de dados e necessidades analíticas da organização. Em muitas arquiteturas de dados modernas, também é possível usar uma abordagem híbrida, com ELT e ETL para partes diferentes do pipeline.
O padrão ELT é particularmente eficaz em vários cenários de dados modernos:
Data warehouse em nuvem
O ELT é uma opção natural para plataformas de dados em nuvem como o BigQuery do Google Cloud, que oferecem imenso poder de processamento e escalonabilidade para lidar com transformações em grandes conjuntos de dados com eficiência.
Análise de Big Data
Ao lidar com volumes enormes, alta velocidade e ampla variedade de dados, o ELT permite a ingestão rápida em um data lake ou armazenamento escalonável. As transformações podem ser aplicadas conforme necessário usando frameworks de processamento distribuído.
Implementação de data lake
Os data lakes foram criados para armazenar grandes quantidades de dados brutos no formato nativo. Os processos de ELT carregam esses dados brutos, e vários mecanismos de análise e processamento podem transformá-los e consumi-los.
Processamento de dados em tempo real ou quase em tempo real
Para casos de uso que exigem acesso rápido a dados novos, o ELT pode acelerar a fase de carregamento. Transformações para painéis ou aplicativos específicos quase em tempo real podem ser realizadas em subconjuntos desses dados.
Análise exploratória de dados e ciência de dados
Os cientistas de dados geralmente preferem ter acesso a dados brutos e não transformados para realizar engenharia de atributos, criar modelos de machine learning e descobrir insights sem serem limitados por transformações predefinidas. O ELT disponibiliza esses dados brutos.
Consolidar diversas origens de dados
Ao integrar dados de vários sistemas diferentes com estruturas variadas, o ELT simplifica a ingestão inicial carregando tudo em um local central e depois harmonizando os dados com transformações.
O Google Cloud oferece um pacote abrangente de serviços que ajuda a otimizar arquiteturas de ELT, permitindo que as organizações criem pipelines de dados robustos e escalonáveis. O foco é usar o poder de serviços como o BigQuery para transformações no banco de dados.
Confira como os serviços do Google Cloud são usados nos padrões de ELT:
A infraestrutura do Google Cloud oferece suporte aos princípios básicos da ELT, fornecendo armazenamento escalonável para dados brutos, recursos de carregamento rápido e um mecanismo eficiente no BigQuery para realizar transformações. Isso permite que os engenheiros de dados criem pipelines em que os dados são rapidamente armazenados e refinados com base em requisitos analíticos específicos, tudo em um ambiente gerenciado e sem servidor.
Comece a criar no Google Cloud com US$ 300 em créditos e mais de 20 produtos do programa Sempre gratuito.