Introdução à transformação de dados

Neste documento, descrevemos as diferentes maneiras de transformar dados nas tabelas do BigQuery.

Para mais informações sobre integrações de dados, consulte Introdução ao carregamento, transformação e exportação de dados.

Métodos de transformação de dados

É possível transformar os dados no BigQuery das seguintes maneiras:

  • Use a linguagem de manipulação de dados (DML) para transformar dados nas tabelas do BigQuery.
  • Use visualizações materializadas para armazenar automaticamente os resultados de uma consulta em cache para aumentar a performance e a eficiência.
  • Use consultas contínuas para analisar os dados recebidos em tempo real e inserir continuamente as linhas de saída em uma tabela do BigQuery ou exportar para o Pub/Sub ou Bigtable.
  • Use o Dataform para desenvolver, testar e controlar versões e programar fluxos de trabalho SQL no BigQuery.
  • Use a preparação de dados com recomendações de transformação geradas por IA e sensíveis ao contexto para limpar dados para análise.

A tabela a seguir mostra as diferentes características de cada método de transformação.

Método de transformação Destino da transformação Método de definição Frequência de transformação
Linguagem de manipulação de dados (DML) Tabela (no local) DML do SQL Iniciada pelo usuário ou programada
visualizações materializadas Visualização materializada Consulta SQL Atualização automática ou manual
Consultas contínuas Tabela, Tópico do Pub/Sub, Tabela do Bigtable Consulta SQL com EXPORT DATA Contínuo
Dataform Tabela Núcleo do Dataform (SQLX) Programado (fluxos de trabalho)
Preparação de dados Tabela Editor visual Programado

Também é possível analisar o histórico de alterações de uma tabela do BigQuery para examinar as transformações feitas em uma tabela em um período especificado.

Transformar dados com DML

Use a linguagem de manipulação de dados (DML, na sigla em inglês) para transformar os dados nas tabelas do BigQuery. Instruções DML são consultas GoogleSQL que manipulam dados de tabelas existentes para adicionar ou excluir linhas, modificar dados em linhas existentes ou mesclar dados com valores de outra tabela. As transformações de DML também são compatíveis com tabelas particionadas.

É possível executar várias instruções DML simultaneamente, em que o BigQuery filtra diversas instruções DML que transformam os dados uma após a outra. O BigQuery gerencia como as instruções DML simultâneas são executadas, com base no tipo de transformação.

Transformar dados com visualizações materializadas

As visualizações materializadas são pré-computadas e armazenam em cache os resultados de uma consulta SQL periodicamente para aumentar o desempenho e a eficiência. O BigQuery usa os resultados pré-calculados das visualizações materializadas e, sempre que possível, lê apenas as mudanças das tabelas base para computar resultados atualizados.

As visualizações materializadas são pré-computadas em segundo plano quando as tabelas base são alteradas. Todas as alterações de dados incrementais das tabelas base são automaticamente adicionadas às visualizações materializadas, sem a necessidade de uma ação do usuário.

Transformar dados com consultas contínuas

As consultas contínuas são instruções SQL executadas continuamente. As consultas contínuas permitem analisar dados recebidos no BigQuery em tempo real. É possível inserir as linhas de saída produzidas por uma consulta contínua em uma tabela do BigQuery ou exportá-las para o Pub/Sub ou o Bigtable.

Transformar dados com Dataform

O Dataform permite gerenciar a transformação de dados no processo de extração, carregamento e transformação (ELT) para integração de dados. Depois de extrair dados brutos dos sistemas de origem e carregá-los no BigQuery, é possível usar o Dataform para transformá-los em um conjunto de tabelas organizado, testado e documentado. Enquanto na DML você adota uma abordagem imperativa informando ao BigQuery como exatamente transformar seus dados, no Dataform você escreve instruções declarativas em que o Dataform determina a transformação necessária para atingir esse estado.

No Dataform, é possível desenvolver, testar e controlar versões de fluxos de trabalho SQL para transformação de dados, desde declarações de fonte de dados até tabelas de saída, visualizações ou visualizações materializadas. É possível desenvolver fluxos de trabalho SQL com o Dataform Core ou JavaScript puro. O núcleo do Dataform é uma metalinguagem de código aberto que estende o SQL com SQLX e JavaScript. É possível usar o Dataform Core para gerenciar dependências, configurar testes automatizados de qualidade de dados e documentar descrições de tabelas ou colunas no código.

O Dataform armazena o código do fluxo de trabalho SQL em repositórios e usa o Git para rastrear as alterações nos arquivos. Os espaços de trabalho de desenvolvimento no Dataform permitem que você trabalhe no conteúdo do repositório sem afetar o trabalho de outras pessoas que estão trabalhando no mesmo repositório. É possível conectar repositórios do Dataform a provedores Git de terceiros, incluindo Azure DevOps Services, Bitbucket, GitHub e GitLab.

É possível executar ou programar fluxos de trabalho SQL com as configurações de versão e de fluxo de trabalho do Dataform. Como alternativa, é possível programar execuções com o Cloud Composer ou com o Workflows e o Cloud Scheduler. Durante a execução, o Dataform executa consultas SQL no BigQuery em ordem de dependências de objetos no fluxo de trabalho SQL. Após a execução, é possível usar suas tabelas e visualizações definidas para análise no BigQuery.

Para saber mais sobre como criar fluxos de trabalho SQL de transformação de dados no Dataform, consulte Visão geral do Dataform e Visão geral dos recursos do Dataform.

Preparar dados no BigQuery

Para reduzir o esforço de preparação de dados, o BigQuery permite limpar dados com sugestões de transformação geradas pelo Gemini. O preparo de dados no BigQuery oferece a seguinte assistência:

  • Aplicar transformações e regras de qualidade de dados
  • Padronizar e enriquecer dados
  • Como automatizar o mapeamento de esquema

Você pode validar os resultados em uma prévia dos dados antes de fazer as mudanças.

Para mais informações, consulte Introdução ao preparo de dados do BigQuery.

A seguir