Prepare dados com o Gemini
Este documento descreve como gerar e gerir sugestões de código SQL para as suas preparações de dados no BigQuery.
Para mais informações, consulte o artigo Introdução à preparação de dados do BigQuery.
Antes de começar
Abra o editor de preparação de dados no BigQuery
Pode abrir o editor de preparação de dados no BigQuery criando uma nova preparação de dados, criando uma a partir de uma tabela ou de um ficheiro do Cloud Storage existente ou abrindo uma preparação de dados existente. Para mais informações sobre o que acontece quando cria uma preparação de dados, consulte o artigo Pontos de entrada da preparação de dados.
Na página BigQuery, pode aceder ao editor de preparação de dados das seguintes formas:
Criar novo
Para criar uma nova preparação de dados no BigQuery, siga estes passos:
- Na Google Cloud consola, aceda à página BigQuery.
Aceder ao BigQuery - Aceda à lista Criar novo e clique em Preparação de dados. O editor de preparação de dados é apresentado num novo separador de preparação de dados sem título.
- Na barra de pesquisa do editor, introduza o nome da tabela ou palavras-chave e selecione uma tabela. O editor de preparação de dados para a tabela é aberto, mostrando uma pré-visualização dos seus dados no separador Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.
- Opcional: para simplificar a vista, ative o modo de ecrã inteiro clicando em ecrã inteiro Ecrã inteiro.
- Opcional: para ver detalhes da preparação de dados, o histórico de versões, adicionar novos comentários ou responder a comentários existentes, use a barra de ferramentas (Pré-visualizar).

Crie a partir de uma tabela
Para criar uma nova preparação de dados a partir de uma tabela existente, siga estes passos:
- Na Google Cloud consola, aceda à página BigQuery.
Aceder ao BigQuery - No painel Explorador, mantenha o cursor do rato sobre uma tabela.
- Clique em more_vert Menu > Consultar em > Preparação de dados. O editor de preparação de dados para a tabela é aberto, mostrando uma pré-visualização dos seus dados no separador Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.
- Opcional: para simplificar a vista, ative o modo de ecrã inteiro clicando em ecrã inteiro Ecrã inteiro.
- Opcional: para ver detalhes da preparação de dados, o histórico de versões, adicionar novos comentários ou responder a comentários existentes, use a barra de ferramentas (Pré-visualizar).

Crie a partir de um ficheiro do Cloud Storage
Para criar uma nova preparação de dados a partir de um ficheiro no Cloud Storage, siga estes passos:
Carregue o ficheiro
- Na Google Cloud consola, aceda à página BigQuery.
Aceder ao BigQuery - Na lista Criar novo, clique em Preparação de dados. O editor de preparação de dados é apresentado num novo separador de preparação de dados sem título.
- Na lista de origens de dados, clique em Google Cloud Storage. É apresentada a caixa de diálogo Preparar dados.
- Na secção Origem, selecione o ficheiro a partir de um contentor do Cloud Storage ou introduza o caminho da origem. Por exemplo, introduza um caminho para o seu ficheiro CSV:
STORAGE_BUCKET_NAME/FILE_NAME.csv
. As pesquisas com carateres universais, como*.csv
, são suportadas.
O formato do ficheiro é detetado automaticamente. Os formatos suportados são: Avro, CSV, JSONL, ORC e Parquet. Outros tipos de ficheiros compatíveis, como DAT, TSV e TXT, são lidos como o formato CSV. - Defina a tabela de preparação externa para a qual vai carregar ficheiros. Na secção Tabela de preparação, introduza os nomes do projeto, do conjunto de dados e da tabela para a nova tabela.
- Na secção Esquema, reveja o esquema.
O Gemini verifica o seu ficheiro quanto a nomes de colunas. Se não encontrar nenhuma, apresenta sugestões.
Por predefinição, o ficheiro de preparação de dados carrega os dados como strings. Pode definir tipos de dados mais específicos quando prepara os dados dos ficheiros. - Opcional: em Opções avançadas, pode adicionar mais informações, como o número de erros permitidos antes de a tarefa falhar. O Gemini oferece opções adicionais com base no conteúdo do seu ficheiro.
- Clique em Criar. O editor de preparação de dados para o ficheiro é aberto, mostrando uma pré-visualização dos seus dados no separador Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.
- Opcional: para simplificar a vista, ative o modo de ecrã inteiro clicando em ecrã inteiro Ecrã inteiro.
- Opcional: para ver detalhes da preparação de dados, o histórico de versões, adicionar novos comentários ou responder a comentários existentes, use a barra de ferramentas (Pré-visualizar).

Prepare o ficheiro
Na vista de dados, prepare os dados do Cloud Storage organizados que carregou seguindo estes passos:
- Opcional: defina tipos de dados mais fortes para colunas relevantes: navegando na lista de sugestões de transformações ou selecionando uma coluna e gerando sugestões para a mesma.
- Opcional: defina regras de validação. Para mais informações, consulte Configure a tabela de erros e adicione uma regra de validação.
- Adicione uma tabela de destino.
- Para carregar os dados do Cloud Storage para a tabela de destino, execute a preparação de dados.
- Opcional: agende a execução da preparação de dados.
- Opcional: otimize a preparação de dados processando-os de forma incremental.
Abrir existente
Para abrir o editor de uma preparação de dados existente, siga estes passos:
- Na Google Cloud consola, aceda à página BigQuery.
Aceder ao BigQuery - No painel Explorador, clique no nome do projeto e em Preparativos de dados.
- Selecione a preparação de dados existente. É apresentada a vista de gráfico do pipeline de preparação de dados.
- Selecione um dos nós no gráfico. O editor de preparação de dados para a tabela é aberto, mostrando uma pré-visualização dos seus dados no separador Dados e um conjunto inicial de sugestões de preparação de dados do Gemini.
- Opcional: para simplificar a vista, ative o modo de ecrã inteiro clicando em ecrã inteiro Ecrã inteiro.
- Opcional: para ver detalhes da preparação de dados, o histórico de versões, adicionar novos comentários ou responder a comentários existentes, use a barra de ferramentas (Pré-visualizar).

Adicione passos de preparação de dados
Prepara os dados em passos. Pode pré-visualizar ou aplicar os passos sugeridos pelo Gemini. Também pode melhorar as sugestões ou aplicar os seus próprios passos.
Aplique e melhore as sugestões do Gemini
Quando abre o editor de preparação de dados para a sua tabela, o Gemini inspeciona os dados e o esquema da tabela que carregou e gera sugestões de filtros e transformações. As sugestões aparecem em cartões na lista Passos.
A imagem seguinte mostra onde pode aplicar e melhorar os passos sugeridos pelo Gemini:
Para aplicar uma sugestão do Gemini como um passo de preparação de dados, faça o seguinte:
- Na vista de dados, clique no nome de uma coluna ou numa célula específica. O Gemini gera sugestões para filtrar e transformar os dados.
Opcional: para melhorar as sugestões, edite os valores de uma a três células na tabela para demonstrar o aspeto dos valores numa coluna. Por exemplo, introduza uma data da forma como quer formatar todas as datas. O Gemini gera novas sugestões com base nas suas alterações.
A imagem seguinte mostra como pode editar valores para melhorar os passos sugeridos pelo Gemini:
Selecione um cartão de sugestão.
- Opcional: para pré-visualizar o resultado do cartão de sugestão, clique em Pré-visualizar.
- Opcional: para modificar o cartão de sugestão através de linguagem natural, clique em Editar.
Clique em Aplicar.
Adicione passos com linguagem natural ou expressões SQL
Se as sugestões existentes não satisfizerem as suas necessidades, adicione um passo. Escolha colunas ou um tipo de passo e, de seguida, descreva o que quer usando linguagem natural.
Adicione uma transformação
- Na vista de dados ou de esquema, escolha a opção Transformar. Também pode escolher colunas ou adicionar exemplos para ajudar o Gemini a compreender a sua transformação de dados.
- No campo Descrição, introduza um comando, como
Convert the state column to uppercase
. Clique em Enviar Enviar.
O Gemini gera uma expressão SQL e uma nova descrição com base no seu comando.
Na lista Coluna de destino, selecione ou introduza um nome de coluna.
Opcional: para atualizar a expressão SQL, reveja o comando e clique em send Enviar ou introduza manualmente uma expressão SQL.
Opcional: clique em Pré-visualizar e reveja o passo.
Clique em Aplicar.
Simplifique as colunas JSON
Para facilitar o acesso e a análise dos pares de chave-valor, reduza as colunas JSON. Por exemplo, se tiver uma coluna JSON denominada user_properties
que contenha as chaves country
e device_type
, a redução desta coluna extrai country
e device_type
para as respetivas colunas de nível superior, para que possa usá-las diretamente na sua análise.
O Gemini para o BigQuery sugere operações que extraem campos apenas do nível superior do JSON. Se estes campos extraídos contiverem mais objetos JSON, pode reduzi-los a um nível nos passos adicionais para aceder ao respetivo conteúdo.
- Na vista de dados de uma tabela de origem JSON, escolha uma coluna ou células.
- Clique em Reduzir para gerar sugestões.
- Opcional: para atualizar a expressão SQL, pode introduzir manualmente uma expressão SQL.
- Opcional: clique em Pré-visualizar e reveja o passo.
- Clique em Aplicar.
O achatamento tem os seguintes comportamentos:
- A opção Aplanar é apresentada na vista de dados depois de selecionar células ou colunas que contenham JSON. Não é apresentada por predefinição quando clica em Adicionar passo.
- Se uma chave JSON não estiver presente nas linhas selecionadas, a sugestão gerada não contém essa chave. Este problema pode fazer com que algumas colunas sejam excluídas quando os dados são reduzidos.
- Se os nomes das colunas entrarem em conflito durante a redução, os nomes das colunas repetidos terminam neste formato:
_<i>
. Por exemplo, se já existir uma coluna com o nomeaddress
, o nome da nova coluna achatada éaddress_1
. - Os nomes das colunas achatadas seguem as convenções de nomenclatura de colunas do BigQuery.
- Se deixar o campo da chave JSON vazio, o formato do nome da coluna predefinido é
f<i>_
.
Reduza as colunas RECORD
ou STRUCT
Para facilitar o acesso e a análise dos campos aninhados, reduza as colunas com o tipo de dados RECORD
ou STRUCT
. Por exemplo, se tiver um registo event_log
que contenha os campos timestamp
e action
, a união deste registo extrai timestamp
e action
para as respetivas colunas de nível superior para que possa transformá-los diretamente.
Este processo extrai todas as colunas aninhadas do registo, até 10 níveis de profundidade, e cria uma nova coluna para cada uma. Os novos nomes das colunas são criados combinando o nome da coluna principal com o nome do campo aninhado, separados por um sublinhado (por exemplo, PARENT-COLUMN-NAME_FIELD-NAME
). A coluna original é eliminada. Para manter a coluna original, pode eliminar o passo Eliminar coluna da lista de Passos aplicados.
Para reduzir os registos, siga estes passos:
- Na vista de dados de uma tabela de origem, escolha uma coluna de registo.
- Clique em Reduzir para gerar sugestões.
- Opcional: para atualizar a expressão SQL, pode introduzir manualmente uma expressão SQL.
- Opcional: clique em Pré-visualizar e reveja o passo.
- Clique em Aplicar.
Filtrar linhas
Para adicionar um filtro que remove linhas, siga estes passos:
- Na vista de dados ou de esquema, escolha a opção Filtrar. Também pode escolher colunas para ajudar o Gemini a compreender o filtro de dados.
- No campo Descrição, introduza um comando, como
Column ID should not be NULL
. - Clique em Gerar. O Gemini gera uma expressão SQL e uma nova descrição com base no seu comando.
- Opcional: para atualizar a expressão SQL, reveja o comando e clique em enviar Enviar ou introduza uma expressão SQL manualmente.
- Opcional: clique em Pré-visualizar e reveja o passo.
- Clique em Aplicar.
Formato da expressão de filtro
As expressões SQL para filtros retêm as linhas que correspondem à condição especificada. Isto
é equivalente a uma declaração SELECT … WHERE SQL_EXPRESSION
.
Por exemplo, para reter registos em que a coluna year
é superior ou igual a 2000
, a condição é year >= 2000
.
As expressões têm de seguir a sintaxe SQL do BigQuery para a cláusula WHERE
.
Remova dados duplicados
Para remover linhas duplicadas dos seus dados, siga estes passos:
- Na vista de dados ou de esquema, escolha a opção Remover duplicados. O Gemini fornece uma sugestão de remoção de duplicados inicial.
- Opcional: para refinar a sugestão, introduza uma nova descrição e clique em enviar Enviar.
- Opcional: para configurar manualmente o passo de desduplicação, use as seguintes
opções:
- Na lista Escolha de registos, selecione uma das seguintes estratégias:
- Primeiro: para cada grupo de linhas com os mesmos valores da chave de remoção de duplicados, esta estratégia escolhe a primeira linha com base na expressão
ORDER BY
e remove as restantes. - Último: para cada grupo de linhas com os mesmos valores da chave de deduplicação, esta estratégia escolhe a última linha com base na expressão
ORDER BY
e remove as restantes. - Qualquer: para cada grupo de linhas com os mesmos valores da chave de eliminação de duplicados, esta estratégia escolhe qualquer linha desse grupo e remove as restantes.
- Distinto: remove todas as linhas duplicadas em todas as colunas da tabela.
- Primeiro: para cada grupo de linhas com os mesmos valores da chave de remoção de duplicados, esta estratégia escolhe a primeira linha com base na expressão
- No campo Chaves de remoção de duplicados, escolha uma ou mais colunas ou expressões para identificar linhas duplicadas. Este campo é aplicável quando a estratégia de escolha de registos é Primeiro, Último ou Qualquer.
- No campo Ordenar por expressão, introduza uma expressão que defina a ordem das linhas. Por exemplo, para escolher a linha mais recente, introduza
datetime DESC
. Para escolher a primeira linha alfabeticamente por nome, introduza um nome de coluna comolast_name
. A expressão segue as mesmas regras que a cláusulaORDER BY
padrão no BigQuery. Este campo só é aplicável quando a estratégia de escolha de registos é Primeiro ou Último.
- Na lista Escolha de registos, selecione uma das seguintes estratégias:
- Opcional: clique em Pré-visualizar e reveja o passo.
- Clique em Aplicar.
Elimine uma coluna
Para eliminar uma ou mais colunas de uma preparação de dados, siga estes passos:
- Na vista de dados ou de esquema, selecione as colunas que quer eliminar.
- Clique em Desistir. É adicionado um novo passo aplicado para as colunas eliminadas.
Adicione uma operação de junção com o Gemini
Para adicionar um passo de operação de junção entre duas origens na preparação de dados, siga estes passos:
- Na vista de dados de um nó na preparação de dados, aceda à lista de Sugestões e clique na opção Juntar.
- Na caixa de diálogo Adicionar junção, clique em Procurar e, de seguida, selecione a outra tabela envolvida na operação de junção (denominada lado direito da junção).
- Opcional: selecione o tipo de operação de junção que quer realizar, como Junção interna.
Reveja as informações da chave de junção geradas pelo Gemini nos seguintes campos:
- Descrição da união: a descrição em linguagem natural da expressão SQL para a operação de união. Quando edita esta descrição e clica em enviar Enviar, o Gemini sugere novas condições de junção SQL.
Condições da união: as expressões SQL na cláusula
ON
para a operação de união. Pode usar os qualificadoresL
eR
para fazer referência às tabelas de origem esquerda e direita, respetivamente. Por exemplo, para juntar a colunacustomer_id
da tabela à esquerda à colunacustomer_id
da tabela à direita, introduzaL.customerId = R.customerId
. Estes qualificadores não são sensíveis a maiúsculas e minúsculas.
Opcional: para refinar as sugestões do Gemini, edite o campo Descrição da união e, de seguida, clique em Enviar Enviar.
Opcional: para pré-visualizar as definições da operação de junção da preparação de dados, clique em Pré-visualizar.
Clique em Aplicar.
O passo da operação de associação é criado. A tabela de origem que selecionou (o lado direito da junção) e a operação de junção refletem-se na lista de passos aplicados e nos nós na vista de gráfico da preparação de dados.
Agregue dados
- Na vista de dados ou de esquema, escolha a opção Agregar.
- No campo Descrição, introduza um comando, como
Find the total revenue for a region
. Clique em Enviar.
O Gemini gera chaves de agrupamento e expressões de agregação com base no seu comando.
Opcional: edite as chaves de agrupamento ou as expressões de agregação geradas, se necessário.
Opcional: pode adicionar manualmente chaves de agrupamento e expressões de agregação.
- No campo Chaves de agrupamento, introduza um nome de coluna ou uma expressão. Se o
deixar em branco, a tabela resultante tem uma linha. Se introduzir uma expressão, tem de ter um alias (uma cláusula
AS
), por exemplo,EXTRACT(YEAR FROM order_date) AS order_year
. Não são permitidos duplicados. - No campo Expressões de agregação, introduza uma expressão de agregação que tenha um alias (uma cláusula
AS
), por exemplo,SUM(quantity) AS total_quantity
. Pode introduzir várias expressões separadas por vírgulas. Não são permitidos duplicados. Para ver uma lista das expressões de agregação suportadas, consulte o artigo Funções de agregação.
- No campo Chaves de agrupamento, introduza um nome de coluna ou uma expressão. Se o
deixar em branco, a tabela resultante tem uma linha. Se introduzir uma expressão, tem de ter um alias (uma cláusula
Opcional: clique em Pré-visualizar e reveja o passo.
Clique em Aplicar.
Configure a tabela de erros e adicione uma regra de validação
Pode adicionar um filtro que crie uma regra de validação, que envia erros para uma tabela de erros ou falha na execução da preparação de dados.
Configure a tabela de erros
Para configurar a tabela de erros, siga estes passos:
- No editor de preparação de dados, aceda à barra de ferramentas e clique em Mais > Tabela de erros.
- Clique em Ativar tabela de erros.
- Defina a localização da tabela.
- Opcional: defina uma duração máxima para manter os erros.
- Clique em Guardar.
Adicione uma regra de validação
Para adicionar uma regra de validação, siga estes passos:
- Na vista de dados ou de esquema, clique na opção Filtrar. Também pode escolher colunas para ajudar o Gemini a compreender o filtro de dados.
- Introduza uma descrição para o passo.
- Introduza uma expressão SQL no formato de uma cláusula
WHERE
. - Opcional: se quiser que a expressão SQL funcione como uma regra de validação, selecione a caixa de verificação As linhas com validação falhada vão para a tabela de erros. Também pode alterar um filtro para uma validação na barra de ferramentas de preparação de dados clicando em Mais > Tabela de erros.
- Opcional: clique em Pré-visualizar e reveja o passo.
- Clique em Aplicar.
Adicione ou altere uma tabela de destino
Para adicionar ou alterar uma tabela de destino para o resultado da preparação de dados, siga estes passos:
- Na vista de dados ou de esquema, escolha a opção Destino.
- Selecione o projeto onde a tabela de destino está armazenada.
- Selecione um dos conjuntos de dados ou carregue um novo conjunto de dados.
- Introduza uma tabela de destino. Se a tabela não existir, a preparação de dados cria uma nova tabela na primeira execução. Para mais informações, consulte o artigo Modo de escrita.
- Selecione o seu conjunto de dados como o conjunto de dados de destino.
- Clique em Guardar.
Veja a amostra de dados e o esquema de um passo aplicado
Para ver detalhes de amostras e esquemas num passo específico da preparação de dados, faça o seguinte:
- No editor de preparação de dados, aceda à lista Passos e clique em Passos aplicados.
- Selecione um passo. São apresentados os separadores Dados e Esquema, que mostram o exemplo de dados e o esquema a partir deste passo específico.
Edite um passo aplicado
Para editar um passo aplicado, faça o seguinte:
- No editor de preparação de dados, aceda à lista Passos e clique em Passos aplicados.
- Selecione um passo.
- Junto ao passo, clique em more_vert Menu > Editar.
- Na caixa de diálogo Editar passo aplicado, pode fazer o seguinte:
- Edite a descrição do passo.
- Receba sugestões do Gemini editando a descrição e clicando em enviar Enviar.
- Edite a expressão SQL.
- No campo Coluna de destino, selecione uma coluna.
- Opcional: clique em Pré-visualizar e reveja o passo.
- Clique em Aplicar.
Elimine um passo aplicado
Para eliminar um passo aplicado, faça o seguinte:
- No editor de preparação de dados, aceda à lista Passos e clique em Passos aplicados.
- Selecione um passo.
- Clique em more_vert Menu > Eliminar.
Execute a preparação de dados
Depois de adicionar os passos de preparação de dados, configurar o destino e corrigir quaisquer erros de validação, pode executar testes numa amostra dos dados ou implementar os passos e agendar execuções de preparação de dados. Para mais informações, consulte o artigo Agende preparações de dados.
Atualize os exemplos de preparação de dados
Os dados na amostra não são atualizados automaticamente. Se os dados nas tabelas de origem para a preparação de dados tiverem sido alterados, mas as alterações não se refletirem na amostra de dados da preparação, clique em Mais > Atualizar amostra.
O que se segue?
- Saiba como agendar preparações de dados.
- Saiba como gerir preparações de dados.
- Saiba mais acerca das quotas e dos limites do Gemini no BigQuery.
- Reveja os preços do Gemini no BigQuery.