Preparar dados com o Gemini

Neste documento, descrevemos como gerar e gerenciar sugestões de código SQL para suas preparações de dados no BigQuery.

Para mais informações, consulte Introdução ao preparo de dados do BigQuery.

Antes de começar

Abrir o editor de preparo de dados no BigQuery

Para abrir o editor de preparação de dados no BigQuery, crie uma nova preparação de dados, crie uma a partir de uma tabela existente ou abra uma preparação de dados existente. Para mais informações sobre o que acontece quando você cria uma preparação de dados, consulte Pontos de entrada da preparação de dados.

Na página do BigQuery Studio, é possível acessar o editor de preparação de dados das seguintes maneiras:

Criar novo

Para criar uma nova preparação de dados no BigQuery, siga estas etapas:

  1. No console do Google Cloud, acesse a página BigQuery Studio.
    Acessar o BigQuery
  2. Acesse a lista Criar novo e clique em Preparação de dados. O editor de preparação de dados é exibido em uma nova guia de preparação de dados sem título.
  3. Na barra de pesquisa do editor, insira o nome da tabela ou as palavras-chave e selecione uma tabela. O editor de preparação de dados da tabela é aberto, mostrando uma prévia dos seus dados na guia Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.

    Um recurso de Preparação de dados aparece no painel Explorador, onde você pode acessar essa preparação no futuro.
  4. Opcional: para simplificar a visualização, ative o modo de tela cheia clicando em tela cheia Tela cheia.

Criar uma nova tabela

Para criar uma nova preparação de dados com base em uma tabela existente, siga estas etapas:

  1. No console do Google Cloud, acesse a página BigQuery Studio.
    Acessar o BigQuery
  2. No painel Explorer, mantenha o ponteiro do mouse sobre uma tabela.
  3. Clique em more_vert Menu > Consulta em > Preparação de dados. O editor de preparação de dados da tabela é aberto, mostrando uma prévia dos seus dados na guia Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.

    Um recurso de Preparação de dados aparece no painel Explorador, onde você pode acessar essa preparação no futuro.
  4. Opcional: para simplificar a visualização, ative o modo de tela cheia clicando em tela cheia Tela cheia.

Abrir

Para abrir o editor de uma preparação de dados existente, siga estas etapas:

  1. No console do Google Cloud, acesse a página BigQuery Studio.
    Acessar o BigQuery
  2. No painel Explorer, clique no nome do projeto e em preparações de dados.
  3. Selecione a preparação de dados atual. A visualização em gráfico do pipeline de preparação de dados é mostrada.
  4. Selecione um dos nós no gráfico. O editor de preparação de dados da tabela é aberto, mostrando uma prévia dos dados na guia Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.
  5. Opcional: para simplificar a visualização, ative o modo de tela cheia clicando em tela cheia Tela cheia.

Criar etapas de preparação de dados

Você prepara os dados em etapas. É possível visualizar ou aplicar as etapas sugeridas pelo Gemini. Você também pode ajustar as sugestões ou aplicar suas próprias etapas. Para mais informações sobre as etapas de preparação de dados aceitas, consulte Etapas aceitas.

Conferir e aplicar sugestões do Gemini

Quando você abre o editor de preparação de dados da tabela nas etapas anteriores, o Gemini inspeciona os dados e o esquema da tabela carregada e gera sugestões.

Ao conferir os dados na visualização de dados, clique em um nome de coluna ou uma célula específica. O Gemini gera sugestões de filtro e transformação que são específicas para essa coluna ou célula.

Aplique uma sugestão do Gemini como uma etapa de preparação de dados:

  1. Na visualização de dados, acesse a lista Etapas e analise as sugestões.
  2. Opcional: para editar a descrição ou a expressão SQL em um card de sugestão, clique em Visualizar.
  3. Clique em Aplicar.
  4. Opcional: para receber melhores sugestões do Gemini, forneça exemplos e repita estas etapas.

É possível realizar as seguintes ações na visualização de dados ao clicar em Ações aplicadas e inspecionar a lista de ações:

  • Para editar ou remover uma etapa, clique em more_vert Menu e faça a mudança.
  • Selecione qualquer etapa na lista para conferir a amostra de dados e o esquema a partir dessa etapa específica.
  • Selecione uma etapa na lista para inserir novas etapas depois da selecionada.

Melhorar as sugestões com um exemplo

Para ajustar as sugestões do Gemini, dê um exemplo de como os dados devem ficar na célula:

  1. Na visualização de dados, edite os valores de uma a três células para demonstrar como os valores dessa coluna devem ficar. Por exemplo, insira uma data da maneira que você quer formatar todas as datas. O Gemini gera novas sugestões com base nas suas mudanças.

  2. Para modificar um card de sugestão, clique em Visualizar.

  3. Clique em Aplicar.

Adicionar etapas manualmente

Se nenhuma sugestão atender às suas necessidades, adicione a sua própria etapa clicando em Adicionar etapa, selecionando um tipo de etapa e inserindo uma descrição e uma expressão SQL.

Adicionar uma transformação

  1. No visualização de dados, selecione uma coluna e clique em Adicionar etapa > Transformação.
  2. Insira uma descrição para a etapa.
  3. Insira uma expressão SQL.
  4. No campo Coluna de destino, selecione ou crie uma coluna.
  5. Opcional: clique em Visualizar e revise a etapa.
  6. Clique em Aplicar.

Filtrar linhas

Para adicionar um filtro que remova linhas, siga estas etapas:

  1. Na visualização de dados, clique em Adicionar etapa > Filtrar.
  2. Insira uma descrição para a etapa.
  3. Insira uma expressão SQL.
  4. Opcional: clique em Visualizar e revise a etapa.
  5. Clique em Aplicar.

Formato da expressão do filtro

As expressões SQL para filtros retêm as linhas que correspondem à condição especificada. Isso é equivalente a uma instrução SELECT … WHERE SQL_EXPRESSION.

Por exemplo, para manter registros em que a coluna year é maior ou igual a 2000, a condição é year >= 2000.

As expressões precisam seguir a sintaxe SQL do BigQuery para a cláusula WHERE.

Configurar a tabela de erros e adicionar uma regra de validação

É possível adicionar um filtro que cria uma regra de validação, que envia erros para uma tabela de erros ou falha na execução da preparação de dados.

Configurar a tabela de erros

Para configurar a tabela de erros, siga estas etapas:

  1. Na visualização de dados, acesse a barra de ferramentas e clique em Mais > Tabela de erros.
  2. Clique em Ativar tabela de erros.
  3. Defina o local da tabela.
  4. Opcional: defina uma duração máxima para manter os erros.
  5. Clique em Salvar.

Adicionar uma regra de validação

Para adicionar uma regra de validação, siga estas etapas:

  1. Na visualização de dados, clique em Adicionar etapa > Filtrar.
  2. Insira uma descrição para a etapa.
  3. Insira uma expressão SQL na forma de uma cláusula WHERE.
  4. Opcional: se você quiser que a expressão SQL funcione como uma regra de validação, selecione a caixa de seleção As linhas de validação com falhas vão para a tabela de erros. Também é possível mudar um filtro para uma validação na barra de ferramentas de preparação de dados clicando em Mais > Tabela de erros.
  5. Opcional: clique em Visualizar e revise a etapa.
  6. Clique em Aplicar.

Excluir uma coluna

Para excluir uma coluna de uma preparação de dados, siga estas etapas:

  1. Na visualização de esquema, clique em more_vert Menu ao lado da coluna a ser excluída.
  2. Clique em Excluir. Uma nova etapa aplicada é adicionada à coluna excluída.

Adicionar uma operação de mesclagem

Para adicionar uma etapa de operação de mesclagem entre duas fontes no preparo de dados, siga estas etapas:

  1. Na visualização de dados de um nó na preparação de dados, acesse a lista Steps e clique em Add step > Join.
  2. Na caixa de diálogo Configurar mesclagem, selecione a outra tabela envolvida na operação de mesclagem (chamada de lado direito da mesclagem).
  3. Opcional: selecione as chaves de mesclagem para cada tabela. As chaves de junção precisam ter o mesmo tipo de dados.
  4. Opcional: selecione o tipo de operação de união a ser realizada, como União interna.
  5. Opcional: para preparar a tabela do lado direito antes de especificar uma chave de mesclagem, como quando os tipos de dados das duas colunas na mesclagem são diferentes, siga estas etapas:

    1. Salvar uma mesclagem sem uma chave de junção selecionada.
    2. Acesse a visualização em gráfico e selecione a tabela de origem do lado direito.
    3. Prepare a tabela do lado direito, como transformar o tipo de dados de uma coluna.
    4. Edite a mesclagem que você salvou na etapa anterior definindo uma chave.
  6. Clique em Criar.

Todas as linhas da tabela são retidas, mesmo que não haja um valor correspondente em uma das tabelas.

Depois de salvar a etapa, a tabela de origem selecionada (lado direito da junção) e a operação de junção são refletidas na lista de etapas aplicadas e nos nós na visualização de gráfico da preparação de dados.

Adicionar ou mudar uma tabela de destino

Para adicionar ou mudar uma tabela de destino para a saída da preparação de dados, siga estas etapas:

  1. Na visualização de dados, clique em Adicionar > Destino.
  2. Selecione o projeto em que a tabela de destino está armazenada.
  3. Selecione um dos conjuntos de dados ou carregue um novo.
  4. Insira uma tabela de destino. Se a tabela não existir, a preparação de dados vai criar uma nova na primeira execução. Para mais informações, consulte Modo de gravação.
  5. Selecione seu conjunto de dados como o destino.
  6. Clique em Salvar.

Executar a preparação de dados

Para executar as etapas de preparação de dados e carregar os dados preparados na tabela de destino, programe uma execução de preparação de dados única ou recorrente:

  1. Salve todas as mudanças pendentes na preparação de dados.
  2. Na barra de ferramentas de preparação de dados, clique em Programar.
  3. Insira um nome para a programação.
  4. Insira o nome da conta de serviço associada à execução.
  5. Defina uma frequência.
  6. Clique em Criar programação.

Para mais informações, consulte Programar preparações de dados.

Atualizar amostras de preparação de dados

Os dados da amostra não são atualizados automaticamente. Se os dados nas tabelas de origem para a preparação de dados tiverem mudado, mas as mudanças não forem refletidas na amostra de dados da preparação, clique em Mais > Atualizar amostra.

A seguir