Introdução à preparação de dados do BigQuery

Este documento descreve a preparação de dados com tecnologia de IA no BigQuery. As preparações de dados são recursos do BigQuery Studio que usam o Gemini no BigQuery para analisar seus dados e fornecer sugestões inteligentes para limpeza, transformação e enriquecimento. É possível reduzir significativamente o tempo e o esforço necessários para tarefas manuais de preparação de dados. A orquestração de preparações de dados é feita pelo Dataform.

Vantagens

  • É possível reduzir o tempo gasto no desenvolvimento de pipelines de dados com sugestões de transformação geradas pelo Gemini e que consideram o contexto.
  • É possível validar os resultados gerados em uma visualização e receber sugestões de limpeza e enriquecimento da qualidade dos dados com o mapeamento automático de esquemas.
  • O Dataform permite usar um processo de integração e desenvolvimento contínuos (CI/CD), com suporte à colaboração entre equipes para análises de código e controle de origem.

Funções exigidas

Os usuários que estão preparando os dados e as contas de serviço do Dataform que estão executando os jobs precisam de papéis do Identity and Access Management (IAM). Para mais informações, consulte Papéis obrigatórios e Configurar o Gemini para o BigQuery.

Pontos de entrada de preparação de dados

É possível criar e gerenciar preparações de dados na página BigQuery Studio. Consulte Abrir o editor de preparação de dados no BigQuery.

Quando você abre uma tabela no preparo de dados do BigQuery, um job do BigQuery é executado usando suas credenciais. A execução cria linhas de amostra da tabela escolhida e grava os resultados em uma tabela temporária no mesmo projeto. O Gemini usa os dados e o esquema de exemplo para gerar sugestão de preparação de dados exibidas no editor de preparação de dados.

Visualizações no editor de preparação de dados

As preparações de dados aparecem como guias na página do BigQuery Studio. Cada guia tem uma série de subguias, ou visualizações de preparação de dados, em que você projeta e gerencia as preparações de dados.

Visualização de dados

Quando você cria uma nova preparação de dados, uma guia de editor de preparação de dados é aberta, mostrando a visualização de dados, que contém uma amostra representativa da tabela. Para preparações de dados existentes, navegue até a visualização de dados clicando em um nó na visualização de gráfico do pipeline de preparação de dados.

Com a visualização de dados, você pode:

  • Interaja com seus dados para formar etapas de preparação de dados.
  • Aplicar sugestões do Gemini.
  • Melhore a qualidade das sugestões do Gemini inserindo valores de exemplo nas células.

Em cada coluna da tabela, um perfil estatístico (um histograma) mostra a contagem dos principais valores de cada coluna nas linhas de visualização.

Visualização de gráfico

A visualização em gráfico é uma visão geral da preparação de dados. Ele aparece como uma guia na página BigQuery Studio no console quando você abre uma preparação de dados. O gráfico mostra nós para todas as etapas do pipeline de preparação de dados. É possível selecionar um nó no gráfico para configurar as etapas de preparação de dados que ele representa.

Visualização do esquema

A visualização do esquema de preparação de dados mostra o esquema atual da etapa de preparação de dados ativa. O esquema mostrado corresponde às colunas na visualização de dados.

Na visualização de esquema, é possível realizar operações dedicadas, como remover colunas, o que também cria etapas na lista Ações aplicadas.

Sugestões do Gemini

O Gemini oferece sugestões com base no contexto para ajudar nas seguintes tarefas de preparação de dados:

  • Aplicar transformações e regras de qualidade de dados
  • Padronizar e enriquecer dados
  • Como automatizar o mapeamento de esquema

Cada sugestão aparece em um card na lista de sugestões do editor de preparação de dados. O card contém as seguintes informações:

  • A categoria de alto nível da etapa, como Manter linhas ou Transformação
  • Uma descrição da etapa, como Manter linhas se COLUMN_NAME não for NULL
  • A expressão SQL correspondente usada para executar a etapa

Você pode visualizar ou aplicar o card de sugestão ou ajustar a sugestão. Também é possível adicionar etapas manualmente. Para mais informações, consulte Preparar dados com o Gemini.

Para ajustar as sugestões do Gemini, dê um exemplo do que precisa ser alterado em uma coluna.

Amostragem de dados

O BigQuery usa a amostragem de dados para mostrar uma prévia da preparação de dados. É possível conferir a amostra na visualização de dados de cada nó. Os dados da amostra não são atualizados automaticamente. Para mais informações, consulte Atualizar amostras de preparação de dados.

Modo de gravação

Para otimizar os custos e o tempo de processamento, mude as configurações do modo de gravação para processar novos dados da fonte de forma incremental. Por exemplo, se você tiver uma tabela no BigQuery em que os registros são inseridos diariamente e um painel do Looker que precisa refletir os dados alterados, é possível programar a preparação de dados do BigQuery para ler de forma incremental os novos registros da tabela de origem e propagá-los para a tabela de destino.

Para configurar a forma como os dados preparados são gravados em uma tabela de destino, consulte Processar dados de forma incremental para otimizar a preparação.

Os seguintes modos de gravação são compatíveis:

Opção de modo de gravação Descrição
Atualização completa Insere os dados preparados para substituir todos os dados na tabela de destino. A tabela é recriada, não truncada. A atualização completa é o modo padrão ao gravar em uma tabela de destino.
adicionar ao final Insere os dados preparados em novas linhas na tabela de destino.
Incremental Insere apenas os dados novos ou, dependendo da coluna incremental escolhida, dados alterados na tabela de destino.

Etapas de preparação de dados com suporte

O BigQuery oferece suporte aos seguintes tipos de etapas de preparação de dados:

Tipo de etapa Descrição
Origem Adiciona uma origem quando você seleciona uma tabela do BigQuery para ler ou quando você adiciona uma etapa de mesclagem.
Transformação Limpa e transforma dados usando uma expressão SQL. Você recebe cards de sugestão para as seguintes expressões:
  • Funções de conversão de tipo, como CAST
  • Funções de string, como SUBSTR, CONCAT, REPLACE, UPPER, LOWER e TRIM
  • Funções de data/hora, como PARSE_DATE, TIMESTAMP, EXTRACT e DATE_ADD
  • Funções JSON, como JSON_EXTRACT

Também é possível usar qualquer expressão SQL válida do BigQuery em etapas de transformação manual. Por exemplo:
  • Matemática com números, como converter watts-hora em quilowatts-hora
  • Funções de matriz, como ARRAY_AGG, ARRAY_CONCAT e UNNEST
  • Funções de janela, como ROW_NUMBER, LAG, LEAD, RANK e NTILE


Para mais informações, consulte Adicionar uma transformação.
Filtro Remove linhas pela sintaxe da cláusula WHERE. Ao adicionar uma etapa de filtro, você pode transformá-la em uma etapa de validação.

Para mais informações, consulte Filtrar linhas.
Validação Envia linhas que atendem aos critérios da regra de validação para uma tabela de erros. Se os dados falharem na regra de validação e nenhuma tabela de erros for configurada, a preparação de dados vai falhar durante a execução.

Para mais informações, consulte Configurar a tabela de erros e adicionar uma regra de validação.
Mesclagem Une valores de duas fontes. As tabelas precisam estar no mesmo local. As colunas de chave de junção precisam ter o mesmo tipo de dados. Os preparativos de dados são compatíveis com as seguintes operações de mesclagem:
  • Junções internas
  • Junções à esquerda
  • Mesclagens à direita
  • Junções externas completas
  • Mesclagens cruzadas (se nenhuma coluna de chave de mesclagem for selecionada, uma mesclagem cruzada será usada)


Para mais informações, consulte Adicionar uma operação de mesclagem.
Destino Define um destino para a saída das etapas de preparação de dados. Se você inserir uma tabela de destino que não existe, a preparação de dados vai criar uma nova tabela usando as informações do esquema atual.

Para mais informações, consulte Adicionar ou mudar uma tabela de destino.
Excluir colunas Exclui colunas do esquema. Realize essa etapa na visualização do esquema.

Para mais informações, consulte Excluir uma coluna.

Como programar execuções de preparação de dados

Para executar as etapas de preparação de dados e carregar os dados preparados na tabela de destino, programe uma execução de preparação de dados única ou recorrente. É possível programar preparações de dados no editor de preparação de dados e gerenciá-las na página Orquestração do BigQuery. Para mais informações, consulte Programar preparações de dados.

APIs

A preparação de dados do BigQuery não tem uma API própria. Para saber mais sobre como usar o preparo de dados do BigQuery com o Dataform, entre em contato com bq-datapreparation-feedback@google.com.

Limitações

O preparo de dados está disponível com as seguintes limitações:

  • Todos os conjuntos de dados de origem e destino de preparação de dados do BigQuery de uma determinada preparação de dados precisam estar no mesmo local. Para mais informações, consulte Locais com suporte.
  • Durante a edição do pipeline, os dados e as interações são enviados para um data center dos EUA para processamento. Para mais informações, consulte Locais com suporte.
  • O preparo de dados não oferece suporte à geração de consulta SQL em linguagem natural.
  • Os preparos de dados do BigQuery não oferecem suporte à visualização, comparação ou restauração de versões de preparo de dados.
  • As respostas do Gemini são baseadas em uma amostra do conjunto de dados que você fornece ao projetar o pipeline de preparação de dados. Para mais informações, consulte como o Gemini para Google Cloud usa seus dados e os termos no Gemini para Google Cloud Programa Trusted Tester.

Locais

Os preparativos de dados oferecem suporte ao processamento de dados em todos os locais do BigQuery. Os conjuntos de dados de origem e destino de um determinado preparo de dados precisam estar no mesmo local.

Preços

A execução de preparações de dados e a criação de amostras de visualização de dados usam recursos do BigQuery, que são cobrados de acordo com as taxas mostradas nos Preços do BigQuery.

A preparação de dados está incluída nos preços do Gemini no BigQuery. É possível usar a preparação de dados do BigQuery durante a visualização sem custo extra. Para mais informações, consulte Configurar o Gemini no BigQuery.

Cotas

Para mais informações, consulte as cotas do Gemini no Google Cloud.

A seguir