Usar o agente de ciência de dados do Colab Enterprise com o BigQuery

O Agente de Ciência de Dados (DSA, na sigla em inglês) para Colab Enterprise e BigQuery permite automatizar a análise exploratória de dados, realizar tarefas de machine learning e gerar insights em um notebook do Colab Enterprise.

Antes de começar

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Para novos projetos, a API BigQuery é ativada automaticamente.

Se você não conhece o Colab Enterprise no BigQuery, consulte as etapas de configuração na página Criar notebooks.

Limitações

O Agente de Ciência de Dados é compatível com as seguintes fontes de dados:
- Arquivos CSV
- Tabelas do BigQuery
O código produzido pelo agente de ciência de dados só é executado no tempo de execução do seu notebook.
O Agente de Ciência de Dados não é compatível com projetos que ativaram o VPC Service Controls.
A pesquisa de tabelas do BigQuery usando a função @mention é limitada ao seu projeto atual. Use o seletor de tabelas para pesquisar em vários projetos.
A função @mention só pesquisa tabelas do BigQuery. Para pesquisar arquivos de dados que podem ser enviados, use o símbolo +.
O PySpark no Data Science Agent só gera código do Serverless para Apache Spark 4.0. A DSA pode ajudar você a fazer upgrade para o Serverless para Apache Spark 4.0, mas os usuários que precisam de versões anteriores não devem usar o agente de ciência de dados.

Quando usar o agente de ciência de dados

O agente de ciência de dados ajuda você com tarefas que vão desde a análise exploratória de dados até a geração de previsões e estimativas de machine learning. Você pode usar a DSA para:

Processamento de dados em grande escala: use o BigQuery ML, o BigQuery DataFrames ou o Serverless para Apache Spark para realizar o processamento distribuído de dados em grandes conjuntos de dados. Isso permite limpar, transformar e analisar de maneira eficiente dados muito grandes para caber na memória de uma única máquina.
Gerar um plano: gere e modifique um plano para concluir uma tarefa específica usando ferramentas comuns, como Python, SQL, Serverless para Apache Spark e DataFrames do BigQuery.
Análise de dados: analise um conjunto de dados para entender a estrutura dele, identificar possíveis problemas, como valores ausentes e outliers, e examinar a distribuição das principais variáveis usando Python ou SQL.
Limpeza de dados: limpe seus dados. Por exemplo, remova pontos de dados que são outliers.
Organização de dados: converta recursos categóricos em representações numéricas usando técnicas como codificação one-hot ou de rótulo ou usando as ferramentas de transformação de recursos do BigQuery ML. Crie novos recursos para análise.
Análise de dados: analise as relações entre diferentes variáveis. Calcular correlações entre atributos numéricos e analisar distribuições de atributos categóricos. Procure padrões e tendências nos dados.
Visualização de dados: crie visualizações como histogramas, diagramas de caixa, gráficos de dispersão e gráficos de barras que representam as distribuições de variáveis individuais e as relações entre elas. Também é possível criar visualizações em Python para tabelas armazenadas no BigQuery.
Engenharia de atributos: crie novos atributos com base em um conjunto de dados limpo.
Divisão de dados: divida um conjunto de dados projetado em conjuntos de dados de treinamento, validação e teste.
Treinamento do modelo: treine um modelo usando os dados de treinamento em um DataFrame do pandas (X_train, y_train), DataFrames do BigQuery, um DataFrame do PySpark ou usando a instrução CREATE MODEL do BigQuery ML com tabelas do BigQuery.
Otimização do modelo: otimize um modelo usando o conjunto de validação. Analise modelos alternativos, como DecisionTreeRegressor e RandomForestRegressor, e compare a performance deles.
Avaliação do modelo: avalie a performance do modelo em um conjunto de dados de teste usando um DataFrame do pandas, do BigQuery ou do PySpark. Você também pode avaliar a qualidade e comparar modelos usando as funções de avaliação de modelo do BigQuery ML para modelos treinados com o BigQuery ML.
Inferência de modelo: faça inferência com modelos treinados do BigQuery ML, modelos importados e modelos remotos usando as funções de inferência do BigQuery ML. Você também pode usar o método model.predict() do BigFrames ou os transformadores do PySpark para fazer previsões.

Usar o agente de ciência de dados no BigQuery

As etapas a seguir mostram como usar o agente de ciência de dados no BigQuery.

Crie ou abra um notebook do Colab Enterprise.
Referencie seus dados de uma das seguintes maneiras:
- Faça upload de um arquivo CSV ou use o símbolo + no comando para pesquisar arquivos disponíveis
- Escolha uma ou mais tabelas do BigQuery no seletor de tabelas do projeto atual ou de outros projetos a que você tem acesso.
- Faça referência a um nome de tabela do BigQuery no seu comando neste formato: project_id:dataset.table
- Digite o símbolo @ para pesquisar um nome de tabela do BigQuery usando a função @mention.
Insira um comando que descreva a análise de dados que você quer fazer ou o protótipo que você quer criar. O comportamento padrão do agente de ciência de dados é gerar código Python usando bibliotecas de código aberto, como o sklearn, para realizar tarefas complexas de machine learning. Para usar uma ferramenta específica, inclua as seguintes palavras-chave no comando:
- Se quiser usar o BigQuery ML, inclua a palavra-chave "SQL".
- Se você quiser usar o BigQuery DataFrames, especifique as palavras-chave "BigFrames" ou "BigQuery DataFrames".
- Se você quiser usar o PySpark, inclua as palavras-chave "Apache Spark" ou "PySpark".
Se precisar de ajuda, consulte os exemplos de comandos.
Confira os resultados.

Analisar um arquivo CSV

Para analisar um CSV usando o Agente de ciência de dados no BigQuery, siga estas etapas.

Acessar a página do BigQuery.

Acessar o BigQuery
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.

Como alternativa, na barra de guias, clique na seta suspensa ao lado do ícone + e clique em Notebook > Notebook vazio.
Na barra de ferramentas, clique no botão brilho Alternar o Gemini para abrir a caixa de diálogo de chat.

Observação: é possível mover a caixa de diálogo do chat para um painel separado fora do notebook clicando no ícone Mover para o painel.
Faça upload do arquivo CSV.
1. Na caixa de diálogo do chat, clique em Adicionar ao Gemini > Fazer upload.
2. Se necessário, autorize sua Conta do Google.
3. Procure o local do arquivo CSV e clique em Abrir.
Ou digite o símbolo + no comando para pesquisar arquivos disponíveis para upload.
Digite o comando na janela de chat. Por exemplo: Identify trends and anomalies in this file.
Clique em Enviar. Os resultados aparecem na janela de chat.
Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Clique em Cancelar para interromper.

Analisar tabelas do BigQuery

Para analisar uma tabela do BigQuery, escolha uma ou mais tabelas no seletor, forneça uma referência a ela no comando ou pesquise uma tabela usando o símbolo @.

Acessar a página do BigQuery.

Acessar o BigQuery
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Notebook.

Como alternativa, na barra de guias, clique na seta suspensa ao lado do ícone + e clique em Notebook > Notebook vazio.
Na barra de ferramentas, clique no botão brilho Alternar Gemini para abrir a caixa de diálogo de chat.

Observação: é possível mover a caixa de diálogo do chat para um painel separado fora do notebook clicando no ícone Mover para o painel.
Digite o comando na janela de chat.
Referencie seus dados de uma das seguintes maneiras:
1. Escolha uma ou mais tabelas usando o seletor:
  1. Clique em Adicionar ao Gemini > Tabelas do BigQuery.
  2. Na janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. Você pode pesquisar tabelas em projetos e filtrar usando a barra de pesquisa.
2. Inclua um nome de tabela do BigQuery diretamente no comando. Por exemplo: "Me ajude a fazer uma análise de dados exploratória e receba insights sobre os dados nesta tabela: project_id:dataset.table".
  
  Substitua:
  - project_id: ID do projeto;
  - dataset: o nome do conjunto de dados que contém a tabela que você está analisando.
  - table: o nome da tabela que você está analisando
3. Digite @ para pesquisar uma tabela do BigQuery no projeto atual.
Clique em Enviar.

Os resultados aparecem na janela de chat.
Você pode pedir ao agente para mudar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no notebook. Para outras etapas do plano, talvez seja necessário clicar em Aceitar e executar novamente. Clique em Cancelar para interromper.

Comandos de amostra

Não importa a complexidade do comando usado, o agente de ciência de dados gera um plano que pode ser refinado para atender às suas necessidades.

Os exemplos a seguir mostram os tipos de comandos que você pode usar com a DSA.

Comandos do Python

O código Python é gerado por padrão, a menos que você use uma palavra-chave específica no comando, como "BigQuery ML" ou "SQL".

Investigue e preencha os valores ausentes usando o algoritmo de aprendizado de máquina de vizinhos k-mais próximos (KNN).
Crie um gráfico de salário por nível de experiência. Use a coluna experience_level para agrupar os salários e crie um boxplot para cada grupo mostrando os valores da coluna salary_in_usd.
Use o algoritmo XGBoost para criar um modelo que determine a variável class de uma fruta específica. Divida os dados em conjuntos de dados de treinamento e teste para gerar um modelo e determinar a acurácia dele. Crie uma matriz de confusão para mostrar as previsões em cada classe, incluindo todas as previsões corretas e incorretas.
Previsão de target_variable de filename.csv para os próximos seis meses.

Comandos de SQL e BigQuery ML

Crie e avalie um modelo de classificação em bigquery-public-data.ml_datasets.census_adult_income usando SQL do BigQuery.
Usando SQL, preveja o tráfego futuro do meu site para o próximo mês com base em bigquery-public-data.google_analytics_sample.ga_sessions_*. Em seguida, crie um gráfico com os valores históricos e previstos.
Agrupe clientes semelhantes para criar campanhas de mercado segmentadas usando um modelo KMeans e funções SQL do BigQuery ML. Use três recursos para clustering. Em seguida, visualize os resultados criando uma série de gráficos de dispersão 2D. Use a tabela bigquery-public-data.ml_datasets.census_adult_income.
Gere embeddings de texto no BigQuery ML usando o conteúdo da avaliação em bigquery-public-data.imdb.reviews.

Para conferir uma lista de modelos e tarefas de machine learning compatíveis, consulte a documentação do BigQuery ML.

Comandos do DataFrame

Crie um DataFrame do pandas para os dados em project_id:dataset.table. Analise os dados em busca de valores nulos e crie um gráfico da distribuição de cada coluna usando o tipo de gráfico. Use diagramas de caixa para valores medidos e gráficos de barras para categorias.
Leia filename.csv e crie um DataFrame. Execute uma análise no DataFrame para determinar o que precisa ser feito com os valores. Por exemplo, há valores ausentes que precisam ser substituídos ou removidos, ou há linhas duplicadas que precisam ser corrigidas. Use o arquivo de dados para determinar a distribuição do dinheiro investido em USD por cidade. Crie um gráfico de barras com os 20 principais resultados, mostrando-os em ordem decrescente como "Localização" x "Valor médio investido (USD)".
Crie e avalie um modelo de classificação em project_id:dataset.table usando DataFrames do BigQuery.
Crie um modelo de previsão de série temporal em project_id:dataset.table usando DataFrames do BigQuery e visualize as avaliações do modelo.
Visualize os números de vendas do ano passado na tabela project_id:dataset.table do BigQuery usando os BigQuery DataFrames.
Encontre os recursos que melhor podem prever as espécies de pinguins na tabela bigquery-public_data.ml_datasets.penguins usando o BigQuery DataFrames.

Comandos do PySpark

Crie e avalie um modelo de classificação em project_id:dataset.table usando o Serverless para Apache Spark.
Agrupe clientes semelhantes para criar campanhas de segmentação de mercado, mas primeiro faça a redução de dimensionalidade usando um modelo de PCA. Use o PySpark para fazer isso na tabela project_id:dataset.table.

Desativar o Gemini no BigQuery

Para desativar o Gemini no BigQuery em um projeto do Google Cloud , um administrador precisa desativar a API Gemini para Google Cloud. Consulte Como desativar serviços.

Para desativar o Gemini no BigQuery para um usuário específico, um administrador precisa revogar o papel Usuário do Gemini para Google Cloud (roles/cloudaicompanion.user) desse usuário. Consulte Revogar um único papel do IAM.

Preços

Durante a prévia, você recebe cobranças pela execução de código no ambiente de execução do notebook e pelos slots do BigQuery que usou. Para mais informações, consulte Preços do Colab Enterprise.

Regiões compatíveis

Para conferir as regiões compatíveis com o Agente de Ciência de Dados do Colab Enterprise, consulte Locais.