Usar o agente de ciência de dados do Colab Enterprise com o BigQuery
O Agente de Ciência de Dados (DSA, na sigla em inglês) para Colab Enterprise e BigQuery permite automatizar a análise exploratória de dados, realizar tarefas de machine learning e gerar insights em um notebook do Colab Enterprise.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Para novos projetos, a API BigQuery é ativada automaticamente.
- O Agente de Ciência de Dados é compatível com as seguintes fontes de dados:
- Arquivos CSV
- Tabelas do BigQuery
- O código produzido pelo agente de ciência de dados só é executado no tempo de execução do seu notebook.
- O Agente de Ciência de Dados não é compatível com projetos que ativaram o VPC Service Controls.
- Na primeira vez que você executar o agente de ciência de dados, poderá haver uma latência de aproximadamente 5 a 10 minutos. Isso acontece apenas uma vez por projeto durante a configuração inicial.
- Gerar um plano: gere e modifique um plano para concluir uma tarefa específica usando ferramentas comuns, como Python, SQL e DataFrames do BigQuery.
- Análise de dados: analise um conjunto de dados para entender a estrutura dele, identificar possíveis problemas, como valores ausentes e outliers, e examinar a distribuição das principais variáveis usando Python ou SQL.
- Limpeza de dados: limpe seus dados. Por exemplo, remova pontos de dados que são outliers.
- Organização de dados: converta recursos categóricos em representações numéricas usando técnicas como codificação one-hot ou de rótulo ou usando as ferramentas de transformação de recursos do BigQuery. Crie novos recursos para análise.
- Análise de dados: analise as relações entre diferentes variáveis. Calcular correlações entre atributos numéricos e analisar distribuições de atributos categóricos. Procure padrões e tendências nos dados.
- Visualização de dados: crie visualizações como histogramas, diagramas de caixa, gráficos de dispersão e gráficos de barras que representam as distribuições de variáveis individuais e as relações entre elas. Também é possível criar visualizações em Python para tabelas armazenadas no BigQuery.
- Engenharia de atributos: crie novos atributos com base em um conjunto de dados limpo.
- Divisão de dados: divida um conjunto de dados projetado em conjuntos de dados de treinamento, validação e teste.
- Treinamento de modelo: treine um modelo usando os dados de treinamento em um DataFrame do pandas (
X_train
,y_train
), um DataFrame do BigQuery ou usando a instruçãoCREATE MODEL
do BigQuery ML com tabelas do BigQuery. - Otimização do modelo: otimize um modelo usando o conjunto de validação.
Analise modelos alternativos, como
DecisionTreeRegressor
eRandomForestRegressor
, e compare a performance deles. - Avaliação do modelo: avalie o modelo de melhor performance em um conjunto de dados de teste armazenado em um DataFrame do pandas ou do BigQuery. Avalie a qualidade do modelo, faça comparações entre modelos ou preveja a performance do modelo usando as funções de avaliação de modelo do BigQuery ML.
- Inferência de modelo: faça inferência com modelos treinados do BigQuery ML, modelos importados e modelos remotos usando as funções de inferência do BigQuery ML. Ou use o método
BigFrames
model.predict()
para fazer previsões em dados não vistos. Crie ou abra um notebook do Colab Enterprise.
Faça upload de um arquivo CSV, escolha uma ou mais tabelas do BigQuery no seletor de tabelas ou faça referência a uma tabela do BigQuery no seu comando.
Insira um comando que descreva a análise de dados que você quer fazer ou o protótipo que você quer criar. O comportamento padrão do agente de ciência de dados é gerar código Python usando bibliotecas de código aberto, como o sklearn, para realizar tarefas complexas de machine learning. Para usar uma ferramenta específica, inclua as seguintes palavras-chave no comando:
- Se quiser usar o BigQuery ML, inclua a palavra-chave "SQL".
- Se você quiser usar o BigQuery DataFrames, especifique as palavras-chave "BigFrames" ou "BigQuery DataFrames".
Se precisar de ajuda, consulte os exemplos de comandos.
Confira os resultados.
Acessar a página do BigQuery.
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.
Como alternativa, na barra de guias, clique na > Notebook vazio.
seta suspensa ao lado do ícone + e clique em NotebookNa barra de ferramentas, clique no botão brilho Alternar o Gemini para abrir a caixa de diálogo de chat.
Faça upload do arquivo CSV.
Na caixa de diálogo do chat, clique em
Adicionar arquivos.Se necessário, autorize sua Conta do Google.
No painel de ações, clique em
Fazer upload do arquivo.Procure o local do arquivo CSV e clique em Abrir.
Ao lado do nome do arquivo, clique no ícone
Mais ações e escolha Adicionar ao Gemini.
Digite o comando na janela de chat. Por exemplo:
Identify trends and anomalies in this file.
Clique em
Enviar. Os resultados aparecem na janela de chat.Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Clique em Cancelar para interromper.
Acessar a página do BigQuery.
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.
Como alternativa, na barra de guias, clique na > Notebook vazio.
seta suspensa ao lado do ícone + e clique em NotebookNa barra de ferramentas, clique no botão spark Alternar Gemini para abrir a caixa de diálogo de chat.
Digite o comando na janela de chat.
Escolha uma ou mais tabelas usando o seletor:
Clique em > Tabelas do BigQuery.
Adicionar ao GeminiNa janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. Você pode pesquisar tabelas em projetos e filtrar usando a barra de pesquisa.
Também é possível referenciar uma tabela do BigQuery diretamente no seu comando. Por exemplo: "Me ajude a fazer uma análise de dados exploratória e receba insights sobre os dados nesta tabela:
project_id:dataset.table
".Substitua:
project_id
: ID do projeto;dataset
: o nome do conjunto de dados com a tabela que você está analisando.table
: o nome da tabela que você está analisando.
Clique em
Enviar.Os resultados aparecem na janela de chat.
Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Para outras etapas do plano, talvez seja necessário clicar em Aceitar e executar novamente. Clique em Cancelar para interromper.
- Investigue e preencha os valores ausentes usando o algoritmo de aprendizado de máquina de vizinhos k-mais próximos (KNN).
- Crie um gráfico de salário por nível de experiência. Use a coluna
experience_level
para agrupar os salários e crie um boxplot para cada grupo mostrando os valores da colunasalary_in_usd
. - Use o algoritmo XGBoost para criar um modelo que determine a variável
class
de uma fruta específica. Divida os dados em conjuntos de dados de treinamento e teste para gerar um modelo e determinar a acurácia dele. Crie uma matriz de confusão para mostrar as previsões em cada classe, incluindo todas as previsões corretas e incorretas. - Previsão de
target_variable
defilename.csv
para os próximos seis meses. - Crie e avalie um modelo de classificação em
bigquery-public-data.ml_datasets.census_adult_income
usando SQL do BigQuery. - Usando SQL, preveja o tráfego futuro do meu site para o próximo mês com base em
bigquery-public-data.google_analytics_sample.ga_sessions_*
. Em seguida, crie um gráfico com os valores históricos e previstos. - Agrupe clientes semelhantes para criar campanhas de mercado segmentadas usando um modelo KMeans. Use três recursos para clustering. Em seguida, visualize os resultados criando uma série de gráficos de dispersão 2D. Use a tabela
bigquery-public-data.ml_datasets.census_adult_income
. - Gere embeddings de texto no BigQuery ML usando o conteúdo da avaliação em
bigquery-public-data.imdb.reviews
. - Crie um DataFrame do pandas para os dados em
project_id:dataset.table
. Analise os dados em busca de valores nulos e crie um gráfico da distribuição de cada coluna usando o tipo de gráfico. Use diagramas de caixa para valores medidos e gráficos de barras para categorias. - Leia
filename.csv
e crie um DataFrame. Execute uma análise no DataFrame para determinar o que precisa ser feito com os valores. Por exemplo, há valores ausentes que precisam ser substituídos ou removidos, ou há linhas duplicadas que precisam ser corrigidas. Use o arquivo de dados para determinar a distribuição do dinheiro investido em USD por cidade. Crie um gráfico de barras com os 20 principais resultados, mostrando-os em ordem decrescente como "Localização" x "Valor médio investido (USD)". - Crie e avalie um modelo de classificação em
project_id:dataset.table
usando DataFrames do BigQuery. - Crie um modelo de previsão de série temporal em
project_id:dataset.table
usando DataFrames do BigQuery e visualize as avaliações do modelo. - Visualize os números de vendas do ano passado na tabela
project_id:dataset.table
do BigQuery usando os BigQuery DataFrames. - Encontre os recursos que melhor podem prever as espécies de pinguins na tabela
bigquery-public_data.ml_datasets.penguins
usando o BigQuery DataFrames.
Se você não conhece o Colab Enterprise no BigQuery, consulte as etapas de configuração na página Criar notebooks.
Limitações
Quando usar o agente de ciência de dados
O agente de ciência de dados ajuda você com tarefas que vão desde a análise exploratória de dados até a geração de previsões e estimativas de machine learning. Você pode usar a DSA para:
Usar o agente de ciência de dados no BigQuery
As etapas a seguir mostram como usar o agente de ciência de dados no BigQuery.
Analisar um arquivo CSV
Para analisar um CSV usando o agente de ciência de dados no BigQuery, siga estas etapas.
Analisar tabelas do BigQuery
Para analisar uma tabela do BigQuery, escolha uma ou mais tabelas no seletor de tabelas ou forneça uma referência à tabela no comando.
Comandos de amostra
Não importa a complexidade do comando usado, o agente de ciência de dados gera um plano que pode ser refinado para atender às suas necessidades.
Os exemplos a seguir mostram os tipos de comandos que você pode usar com a DSA.
Comandos do Python
O código Python é gerado por padrão, a menos que você use uma palavra-chave específica no comando, como "BigQuery ML" ou "SQL".
Comandos de SQL e BigQuery ML
Para conferir uma lista de modelos e tarefas de machine learning compatíveis, consulte a documentação do BigQuery ML.
Comandos do DataFrame
Desativar o Gemini no BigQuery
Para desativar o Gemini no BigQuery em um projeto do Google Cloud , um administrador precisa desativar a API Gemini para Google Cloud. Consulte Como desativar serviços.
Para desativar o Gemini no BigQuery para um usuário específico, um
administrador precisa revogar o papel
Usuário do Gemini para
Google Cloud (roles/cloudaicompanion.user
) desse usuário. Consulte
Revogar
um único papel do IAM.
Preços
Durante a prévia, você recebe cobranças pela execução de código no ambiente de execução do notebook e pelos slots do BigQuery que usou. Para mais informações, consulte Preços do Colab Enterprise.
Regiões compatíveis
Para conferir as regiões compatíveis com o Agente de Ciência de Dados do Colab Enterprise, consulte Locais.