Integração de dados e ELT

O BigQuery, a plataforma de dados totalmente gerenciada do Google Cloud, é uma solução escalonável e econômica para análise e integração de dados.

Visão geral

Integração de dados e ELT com o BigQuery

Extrair, carregar e transformar (ELT) é o padrão recomendado pelo Google Cloud para integração de dados. O ELT envolve a extração de dados de sistemas de origem, o carregamento deles no BigQuery e a transformação no formato desejado para análise. Ao contrário do ETL (extrair, transformar, carregar), que envolve a transformação de dados antes de serem carregados em um data warehouse, a abordagem ELT permite usar todo o poder do BigQuery para realizar transformações de dados e qualquer usuário de SQL para desenvolver pipelines de integração de dados com eficiência.

Tempo de lançamento acelerado e redução de custos com ELT

A abordagem ELT acelera o tempo de lançamento ao oferecer um framework familiar e centrado em dados que minimiza a curva de aprendizado. O ELT também elimina a necessidade de uma infraestrutura ETL separada, reduzindo os custos associados à transformação de dados antes do carregamento.

Escalonabilidade e desempenho com governança integrada

A arquitetura do BigQuery permite escalonabilidade massiva e processamento paralelo, possibilitando o tratamento eficiente de grandes conjuntos de dados e transformações complexas. O ELT facilita a governança de dados ao centralizar os dados no BigQuery, permitindo políticas de qualidade e segurança de dados consistentes incorporadas à plataforma.

Integração de dados com flexibilidade e opções

O BigQuery oferece suporte a vários formatos e fontes de dados, incluindo o Apache Iceberg, que oferece flexibilidade na integração de dados diversos. Além disso, há flexibilidade na escolha de idiomas e de dados. Um dos principais benefícios do ELT é que o SQL se encaixa em vários pipelines do SDLC.


Leve dados para o BigQuery

Leve dados para o BigQueryO caminho de integração de dados do BigQuery com ELT.
FaseSolução

Extrair e carregar

Carregamento em lote: o serviço de transferência de dados do BigQuery (DTS, na sigla em inglês) automatiza o carregamento em massa de dados de fontes de dados compatíveis para o BigQuery.

Carga de streaming: as assinaturas do Pub/Sub para o BigQuery gravam mensagens do Pub/Sub em uma tabela do BigQuery conforme elas são recebidas.

Captura de dados alterados (CDC): o Datastream permite a captura de dados alterados (CDC) não invasiva de bancos de dados para o BigQuery.

Federação com fontes de dados externas: o BigQuery oferece suporte à federação com várias fontes de dados externas que não exigem movimentação de dados.

Transformar

Os recursos de transformação do BigQuery são criados com o Dataform, uma ferramenta para criar, testar e documentar a transformação de dados SQL de forma colaborativa com a linguagem de manipulação de dados (DML) do BigQuery. Para facilitar a transformação de dados, criamos duas experiências eficientes que usam o Dataform:

Transformação de dados com tecnologia de IA: a preparação de dados do BigQuery (em pré-lançamento) oferece sugestões inteligentes para limpar, transformar e enriquecer dados, o que pode reduzir o tempo e o esforço necessários para as tarefas de preparação de dados.

Transformação de dados visuais com base em SQL: os fluxos de trabalho do BigQuery (em prévia) oferecem uma experiência visual do usuário para criar fluxos de trabalho simples de forma interativa.

Migração de dados em grande escala

Além dos padrões abordados acima, as migrações para o Google Cloud podem envolver migrações em massa de data warehouses para o BigQuery.O  Serviço de migração do BigQuery é um serviço totalmente gerenciado que permite que os clientes carreguem data warehouses existentes no BigQuery para análises de dados adicionais.

Leve dados para o BigQuery

O caminho de integração de dados do BigQuery com ELT.

Extrair e carregar

Solução

Carregamento em lote: o serviço de transferência de dados do BigQuery (DTS, na sigla em inglês) automatiza o carregamento em massa de dados de fontes de dados compatíveis para o BigQuery.

Carga de streaming: as assinaturas do Pub/Sub para o BigQuery gravam mensagens do Pub/Sub em uma tabela do BigQuery conforme elas são recebidas.

Captura de dados alterados (CDC): o Datastream permite a captura de dados alterados (CDC) não invasiva de bancos de dados para o BigQuery.

Federação com fontes de dados externas: o BigQuery oferece suporte à federação com várias fontes de dados externas que não exigem movimentação de dados.

Transformar

Solução

Os recursos de transformação do BigQuery são criados com o Dataform, uma ferramenta para criar, testar e documentar a transformação de dados SQL de forma colaborativa com a linguagem de manipulação de dados (DML) do BigQuery. Para facilitar a transformação de dados, criamos duas experiências eficientes que usam o Dataform:

Transformação de dados com tecnologia de IA: a preparação de dados do BigQuery (em pré-lançamento) oferece sugestões inteligentes para limpar, transformar e enriquecer dados, o que pode reduzir o tempo e o esforço necessários para as tarefas de preparação de dados.

Transformação de dados visuais com base em SQL: os fluxos de trabalho do BigQuery (em prévia) oferecem uma experiência visual do usuário para criar fluxos de trabalho simples de forma interativa.

Migração de dados em grande escala

Solução

Além dos padrões abordados acima, as migrações para o Google Cloud podem envolver migrações em massa de data warehouses para o BigQuery.O  Serviço de migração do BigQuery é um serviço totalmente gerenciado que permite que os clientes carreguem data warehouses existentes no BigQuery para análises de dados adicionais.

Como funciona

O BigQuery oferece aos engenheiros de dados e desenvolvedores de aplicativos um portfólio completo de produtos e recursos para ajudar a criar, agendar e gerenciar pipelines. O amplo conjunto de ofertas oferece a flexibilidade de escolher entre os paradigmas ETL e ELT.


ETL x ELT
Assista a este vídeo para saber a diferença entre ELT e ETL

Usos comuns

Integração de dados completa com o BigQuery

Arquitetura de integração de dados

O BigQuery é uma plataforma de dados unificada e preparada para IA que permite conectar todos os dados da sua empresa à IA. O BigQuery ingere dados de diversas fontes (mensagens, bancos de dados etc.) por meio de lote, streaming ou captura de dados alterados (CDC). O BigQuery armazena, calcula e gerencia dados com uma camada de transformação com tecnologia de IA e uma experiência de usuário unificada para análise.


Arquitetura de integração de dados do BigQuery

    Arquitetura de integração de dados

    O BigQuery é uma plataforma de dados unificada e preparada para IA que permite conectar todos os dados da sua empresa à IA. O BigQuery ingere dados de diversas fontes (mensagens, bancos de dados etc.) por meio de lote, streaming ou captura de dados alterados (CDC). O BigQuery armazena, calcula e gerencia dados com uma camada de transformação com tecnologia de IA e uma experiência de usuário unificada para análise.


    Arquitetura de integração de dados do BigQuery

      Criar um pipeline ELT

      Criar um pipeline de ELT escalonável com o Google Cloud

      Criar um pipeline de ELT eficiente no Google Cloud:

      1. Escolha as origens de dados: no local, apps na nuvem ou outros.
      2. Ingestão de dados: use o Datastream para tempo real ou o serviço de transferência de dados do BigQuery para cargas completas.
      3. Transformar dados: limpe com a preparação de dados ou crie pipelines com o Dataform.
      4. Visualize com o Looker Studio: crie relatórios e painéis.

      Essa configuração oferece escalonabilidade, recursos em tempo real e transformação de dados eficiente para análises abrangentes.

      Criar uma arquitetura de pipeline ELT

        Criar um pipeline de ELT escalonável com o Google Cloud

        Criar um pipeline de ELT eficiente no Google Cloud:

        1. Escolha as origens de dados: no local, apps na nuvem ou outros.
        2. Ingestão de dados: use o Datastream para tempo real ou o serviço de transferência de dados do BigQuery para cargas completas.
        3. Transformar dados: limpe com a preparação de dados ou crie pipelines com o Dataform.
        4. Visualize com o Looker Studio: crie relatórios e painéis.

        Essa configuração oferece escalonabilidade, recursos em tempo real e transformação de dados eficiente para análises abrangentes.

        Criar uma arquitetura de pipeline ELT
          Gerar uma solução
          Qual problema você está tentando resolver?
          What you'll get:
          Guia explicativo
          Arquitetura de referência
          Soluções pré-criadas disponíveis
          Este serviço foi criado com a Vertex AI. Você precisa ter 18 anos ou mais para usá-lo. Não insira informações sensíveis, confidenciais ou pessoais.

          Comece sua prova de conceito

          Noções básicas sobre o BigQuery

          Tem um projeto grande?

          Integração de dados com o Google Cloud

          Abordagem de integração de dados ETL

          Conheça os parceiros de integração de dados

          Google Cloud