Usar o agente de ciência de dados do Colab Enterprise com o BigQuery
O Agente de Ciência de Dados (DSA, na sigla em inglês) para Colab Enterprise e BigQuery permite automatizar a análise exploratória de dados, realizar tarefas de machine learning e gerar insights em um notebook do Colab Enterprise.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Para novos projetos, a API BigQuery é ativada automaticamente.
- O Agente de Ciência de Dados é compatível com as seguintes fontes de dados:
- Arquivos CSV
- Tabelas do BigQuery
- O código produzido pelo agente de ciência de dados só é executado no tempo de execução do seu notebook.
- O Agente de Ciência de Dados não é compatível com projetos que ativaram o VPC Service Controls.
- Na primeira vez que você executar o agente de ciência de dados, poderá haver uma latência de aproximadamente 5 a 10 minutos. Isso acontece apenas uma vez por projeto durante a configuração inicial.
- A pesquisa de tabelas do BigQuery usando a função
@mention
é limitada ao seu projeto atual. Use o seletor de tabelas para pesquisar em vários projetos. - A função
@mention
só pesquisa tabelas do BigQuery. Para pesquisar arquivos de dados que podem ser enviados, use o símbolo+
. - Gerar um plano: gere e modifique um plano para concluir uma tarefa específica usando ferramentas comuns, como Python, SQL e DataFrames do BigQuery.
- Análise de dados: analise um conjunto de dados para entender a estrutura dele, identificar possíveis problemas, como valores ausentes e outliers, e examinar a distribuição das principais variáveis usando Python ou SQL.
- Limpeza de dados: limpe seus dados. Por exemplo, remova pontos de dados que são outliers.
- Organização de dados: converta recursos categóricos em representações numéricas usando técnicas como codificação one-hot ou de rótulo ou usando as ferramentas de transformação de recursos do BigQuery. Crie novos recursos para análise.
- Análise de dados: analise as relações entre diferentes variáveis. Calcular correlações entre atributos numéricos e analisar distribuições de atributos categóricos. Procure padrões e tendências nos dados.
- Visualização de dados: crie visualizações como histogramas, diagramas de caixa, gráficos de dispersão e gráficos de barras que representam as distribuições de variáveis individuais e as relações entre elas. Também é possível criar visualizações em Python para tabelas armazenadas no BigQuery.
- Engenharia de atributos: crie novos atributos com base em um conjunto de dados limpo.
- Divisão de dados: divida um conjunto de dados projetado em conjuntos de dados de treinamento, validação e teste.
- Treinamento de modelo: treine um modelo usando os dados de treinamento em um DataFrame do pandas (
X_train
,y_train
), um DataFrame do BigQuery ou usando a instruçãoCREATE MODEL
do BigQuery ML com tabelas do BigQuery. - Otimização do modelo: otimize um modelo usando o conjunto de validação.
Analise modelos alternativos, como
DecisionTreeRegressor
eRandomForestRegressor
, e compare a performance deles. - Avaliação do modelo: avalie o modelo de melhor performance em um conjunto de dados de teste armazenado em um DataFrame do pandas ou do BigQuery. Avalie a qualidade do modelo, faça comparações entre modelos ou preveja a performance do modelo usando as funções de avaliação de modelo do BigQuery ML.
- Inferência de modelo: faça inferência com modelos treinados do BigQuery ML, modelos importados e modelos remotos usando as funções de inferência do BigQuery ML. Ou use o método
BigFrames
model.predict()
para fazer previsões em dados não vistos. Crie ou abra um notebook do Colab Enterprise.
Referencie seus dados de uma das seguintes maneiras:
- Faça upload de um arquivo CSV ou use o símbolo
+
no comando para pesquisar arquivos disponíveis - Escolha uma ou mais tabelas do BigQuery no seletor de tabelas do projeto atual ou de outros projetos a que você tem acesso.
- Faça referência a um nome de tabela do BigQuery no seu comando neste
formato:
project_id:dataset.table
- Digite o símbolo
@
para pesquisar um nome de tabela do BigQuery usando a função@mention
.
- Faça upload de um arquivo CSV ou use o símbolo
Insira um comando que descreva a análise de dados que você quer fazer ou o protótipo que você quer criar. O comportamento padrão do agente de ciência de dados é gerar código Python usando bibliotecas de código aberto, como o sklearn, para realizar tarefas complexas de machine learning. Para usar uma ferramenta específica, inclua as seguintes palavras-chave no comando:
- Se quiser usar o BigQuery ML, inclua a palavra-chave "SQL".
- Se você quiser usar o BigQuery DataFrames, especifique as palavras-chave "BigFrames" ou "BigQuery DataFrames".
Se precisar de ajuda, consulte os exemplos de comandos.
Confira os resultados.
Acessar a página do BigQuery.
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.
Como alternativa, na barra de guias, clique na > Notebook vazio.
seta suspensa ao lado do ícone + e clique em NotebookNa barra de ferramentas, clique no botão brilho Alternar o Gemini para abrir a caixa de diálogo de chat.
Faça upload do arquivo CSV.
Na caixa de diálogo do chat, clique em > Fazer upload.
Adicionar ao GeminiSe necessário, autorize sua Conta do Google.
Procure o local do arquivo CSV e clique em Abrir.
Ou digite o símbolo
+
no comando para pesquisar arquivos disponíveis para upload.Digite o comando na janela de chat. Por exemplo:
Identify trends and anomalies in this file.
Clique em
Enviar. Os resultados aparecem na janela de chat.Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Clique em Cancelar para interromper.
Acessar a página do BigQuery.
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.
Como alternativa, na barra de guias, clique na > Notebook vazio.
seta suspensa ao lado do ícone + e clique em NotebookNa barra de ferramentas, clique no botão spark Alternar Gemini para abrir a caixa de diálogo de chat.
Digite o comando na janela de chat.
Referencie seus dados de uma das seguintes maneiras:
Escolha uma ou mais tabelas usando o seletor:
Clique em > Tabelas do BigQuery.
Adicionar ao GeminiNa janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. Você pode pesquisar tabelas em projetos e filtrar usando a barra de pesquisa.
Inclua um nome de tabela do BigQuery diretamente no comando. Por exemplo: "Me ajude a fazer uma análise de dados exploratória e receba insights sobre os dados nesta tabela:
project_id:dataset.table
".Substitua:
project_id
: ID do projeto;dataset
: o nome do conjunto de dados que contém a tabela que você está analisando.table
: o nome da tabela que você está analisando
Digite
@
para pesquisar uma tabela do BigQuery no projeto atual.
Clique em
Enviar.Os resultados aparecem na janela de chat.
Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Para outras etapas do plano, talvez seja necessário clicar em Aceitar e executar novamente. Clique em Cancelar para interromper.
- Investigue e preencha os valores ausentes usando o algoritmo de aprendizado de máquina de vizinhos k-mais próximos (KNN).
- Crie um gráfico de salário por nível de experiência. Use a coluna
experience_level
para agrupar os salários e crie um boxplot para cada grupo mostrando os valores da colunasalary_in_usd
. - Use o algoritmo XGBoost para criar um modelo que determine a variável
class
de uma fruta específica. Divida os dados em conjuntos de dados de treinamento e teste para gerar um modelo e determinar a acurácia dele. Crie uma matriz de confusão para mostrar as previsões em cada classe, incluindo todas as previsões corretas e incorretas. - Previsão de
target_variable
defilename.csv
para os próximos seis meses. - Crie e avalie um modelo de classificação em
bigquery-public-data.ml_datasets.census_adult_income
usando SQL do BigQuery. - Usando SQL, preveja o tráfego futuro do meu site para o próximo mês com base em
bigquery-public-data.google_analytics_sample.ga_sessions_*
. Em seguida, crie um gráfico com os valores históricos e previstos. - Agrupe clientes semelhantes para criar campanhas de mercado segmentadas usando um modelo KMeans e funções SQL do BigQuery ML. Use três recursos para clustering. Em seguida, visualize os resultados criando uma série de gráficos de dispersão 2D. Use a tabela
bigquery-public-data.ml_datasets.census_adult_income
. - Gere embeddings de texto no BigQuery ML usando o conteúdo da avaliação em
bigquery-public-data.imdb.reviews
. - Crie um DataFrame do pandas para os dados em
project_id:dataset.table
. Analise os dados em busca de valores nulos e crie um gráfico da distribuição de cada coluna usando o tipo de gráfico. Use diagramas de caixa para valores medidos e gráficos de barras para categorias. - Leia
filename.csv
e crie um DataFrame. Execute uma análise no DataFrame para determinar o que precisa ser feito com os valores. Por exemplo, há valores ausentes que precisam ser substituídos ou removidos, ou há linhas duplicadas que precisam ser corrigidas. Use o arquivo de dados para determinar a distribuição do dinheiro investido em USD por cidade. Crie um gráfico de barras com os 20 principais resultados, mostrando-os em ordem decrescente como "Localização" x "Valor médio investido (USD)". - Crie e avalie um modelo de classificação em
project_id:dataset.table
usando DataFrames do BigQuery. - Crie um modelo de previsão de série temporal em
project_id:dataset.table
usando DataFrames do BigQuery e visualize as avaliações do modelo. - Visualize os números de vendas do ano passado na tabela
project_id:dataset.table
do BigQuery usando os BigQuery DataFrames. - Encontre os recursos que melhor podem prever as espécies de pinguins na tabela
bigquery-public_data.ml_datasets.penguins
usando o BigQuery DataFrames.
Se você não conhece o Colab Enterprise no BigQuery, consulte as etapas de configuração na página Criar notebooks.
Limitações
Quando usar o agente de ciência de dados
O agente de ciência de dados ajuda você com tarefas que vão desde a análise exploratória de dados até a geração de previsões e estimativas de machine learning. Você pode usar a DSA para:
Usar o agente de ciência de dados no BigQuery
As etapas a seguir mostram como usar o agente de ciência de dados no BigQuery.
Analisar um arquivo CSV
Para analisar um CSV usando o agente de ciência de dados no BigQuery, siga estas etapas.
Analisar tabelas do BigQuery
Para analisar uma tabela do BigQuery, escolha uma ou mais tabelas no seletor, forneça uma referência a ela no comando ou pesquise uma tabela usando o símbolo @
.
Comandos de amostra
Não importa a complexidade do comando usado, o agente de ciência de dados gera um plano que pode ser refinado para atender às suas necessidades.
Os exemplos a seguir mostram os tipos de comandos que você pode usar com a DSA.
Comandos do Python
O código Python é gerado por padrão, a menos que você use uma palavra-chave específica no comando, como "BigQuery ML" ou "SQL".
Comandos de SQL e BigQuery ML
Para conferir uma lista de modelos e tarefas de machine learning compatíveis, consulte a documentação do BigQuery ML.
Comandos do DataFrame
Desativar o Gemini no BigQuery
Para desativar o Gemini no BigQuery em um projeto do Google Cloud , um administrador precisa desativar a API Gemini para Google Cloud. Consulte Como desativar serviços.
Para desativar o Gemini no BigQuery para um usuário específico, um
administrador precisa revogar o papel
Usuário do Gemini para
Google Cloud (roles/cloudaicompanion.user
) desse usuário. Consulte
Revogar
um único papel do IAM.
Preços
Durante a prévia, você recebe cobranças pela execução de código no ambiente de execução do notebook e pelos slots do BigQuery que usou. Para mais informações, consulte Preços do Colab Enterprise.
Regiões compatíveis
Para conferir as regiões compatíveis com o Agente de Ciência de Dados do Colab Enterprise, consulte Locais.