O BigQuery, a plataforma de dados totalmente gerenciada do Google Cloud, é uma solução escalonável e econômica para análise e integração de dados.
Visão geral
Extrair, carregar e transformar (ELT) é o padrão recomendado pelo Google Cloud para integração de dados. O ELT envolve a extração de dados de sistemas de origem, o carregamento deles no BigQuery e a transformação no formato desejado para análise. Ao contrário do ETL (extrair, transformar, carregar), que envolve a transformação de dados antes de serem carregados em um data warehouse, a abordagem ELT permite usar todo o poder do BigQuery para realizar transformações de dados e qualquer usuário de SQL para desenvolver pipelines de integração de dados com eficiência.
A abordagem ELT acelera o tempo de lançamento ao oferecer um framework familiar e centrado em dados que minimiza a curva de aprendizado. O ELT também elimina a necessidade de uma infraestrutura ETL separada, reduzindo os custos associados à transformação de dados antes do carregamento.
A arquitetura do BigQuery permite escalonabilidade massiva e processamento paralelo, possibilitando o tratamento eficiente de grandes conjuntos de dados e transformações complexas. O ELT facilita a governança de dados ao centralizar os dados no BigQuery, permitindo políticas de qualidade e segurança de dados consistentes incorporadas à plataforma.
O BigQuery oferece suporte a vários formatos e fontes de dados, incluindo o Apache Iceberg, que oferece flexibilidade na integração de dados diversos. Além disso, há flexibilidade na escolha de idiomas e de dados. Um dos principais benefícios do ELT é que o SQL se encaixa em vários pipelines do SDLC.
Leve dados para o BigQuery
Leve dados para o BigQuery | O caminho de integração de dados do BigQuery com ELT. |
---|---|
Fase | Solução |
Extrair e carregar | Carregamento em lote: o serviço de transferência de dados do BigQuery (DTS, na sigla em inglês) automatiza o carregamento em massa de dados de fontes de dados compatíveis para o BigQuery. Carga de streaming: as assinaturas do Pub/Sub para o BigQuery gravam mensagens do Pub/Sub em uma tabela do BigQuery conforme elas são recebidas. Captura de dados alterados (CDC): o Datastream permite a captura de dados alterados (CDC) não invasiva de bancos de dados para o BigQuery. Federação com fontes de dados externas: o BigQuery oferece suporte à federação com várias fontes de dados externas que não exigem movimentação de dados. |
Transformar | Os recursos de transformação do BigQuery são criados com o Dataform, uma ferramenta para criar, testar e documentar a transformação de dados SQL de forma colaborativa com a linguagem de manipulação de dados (DML) do BigQuery. Para facilitar a transformação de dados, criamos duas experiências eficientes que usam o Dataform: Transformação de dados com tecnologia de IA: a preparação de dados do BigQuery (em pré-lançamento) oferece sugestões inteligentes para limpar, transformar e enriquecer dados, o que pode reduzir o tempo e o esforço necessários para as tarefas de preparação de dados. Transformação de dados visuais com base em SQL: os fluxos de trabalho do BigQuery (em prévia) oferecem uma experiência visual do usuário para criar fluxos de trabalho simples de forma interativa. |
Migração de dados em grande escala | Além dos padrões abordados acima, as migrações para o Google Cloud podem envolver migrações em massa de data warehouses para o BigQuery.O Serviço de migração do BigQuery é um serviço totalmente gerenciado que permite que os clientes carreguem data warehouses existentes no BigQuery para análises de dados adicionais. |
Leve dados para o BigQuery
O caminho de integração de dados do BigQuery com ELT.
Extrair e carregar
Carregamento em lote: o serviço de transferência de dados do BigQuery (DTS, na sigla em inglês) automatiza o carregamento em massa de dados de fontes de dados compatíveis para o BigQuery.
Carga de streaming: as assinaturas do Pub/Sub para o BigQuery gravam mensagens do Pub/Sub em uma tabela do BigQuery conforme elas são recebidas.
Captura de dados alterados (CDC): o Datastream permite a captura de dados alterados (CDC) não invasiva de bancos de dados para o BigQuery.
Federação com fontes de dados externas: o BigQuery oferece suporte à federação com várias fontes de dados externas que não exigem movimentação de dados.
Transformar
Os recursos de transformação do BigQuery são criados com o Dataform, uma ferramenta para criar, testar e documentar a transformação de dados SQL de forma colaborativa com a linguagem de manipulação de dados (DML) do BigQuery. Para facilitar a transformação de dados, criamos duas experiências eficientes que usam o Dataform:
Transformação de dados com tecnologia de IA: a preparação de dados do BigQuery (em pré-lançamento) oferece sugestões inteligentes para limpar, transformar e enriquecer dados, o que pode reduzir o tempo e o esforço necessários para as tarefas de preparação de dados.
Transformação de dados visuais com base em SQL: os fluxos de trabalho do BigQuery (em prévia) oferecem uma experiência visual do usuário para criar fluxos de trabalho simples de forma interativa.
Migração de dados em grande escala
Além dos padrões abordados acima, as migrações para o Google Cloud podem envolver migrações em massa de data warehouses para o BigQuery.O Serviço de migração do BigQuery é um serviço totalmente gerenciado que permite que os clientes carreguem data warehouses existentes no BigQuery para análises de dados adicionais.
Como funciona
O BigQuery oferece aos engenheiros de dados e desenvolvedores de aplicativos um portfólio completo de produtos e recursos para ajudar a criar, agendar e gerenciar pipelines. O amplo conjunto de ofertas oferece a flexibilidade de escolher entre os paradigmas ETL e ELT.
Usos comuns
O BigQuery é uma plataforma de dados unificada e preparada para IA que permite conectar todos os dados da sua empresa à IA. O BigQuery ingere dados de diversas fontes (mensagens, bancos de dados etc.) por meio de lote, streaming ou captura de dados alterados (CDC). O BigQuery armazena, calcula e gerencia dados com uma camada de transformação com tecnologia de IA e uma experiência de usuário unificada para análise.
O BigQuery é uma plataforma de dados unificada e preparada para IA que permite conectar todos os dados da sua empresa à IA. O BigQuery ingere dados de diversas fontes (mensagens, bancos de dados etc.) por meio de lote, streaming ou captura de dados alterados (CDC). O BigQuery armazena, calcula e gerencia dados com uma camada de transformação com tecnologia de IA e uma experiência de usuário unificada para análise.
Criar um pipeline de ELT eficiente no Google Cloud:
Essa configuração oferece escalonabilidade, recursos em tempo real e transformação de dados eficiente para análises abrangentes.
Criar um pipeline de ELT eficiente no Google Cloud:
Essa configuração oferece escalonabilidade, recursos em tempo real e transformação de dados eficiente para análises abrangentes.