Use o agente de ciência de dados do Colab Enterprise com o BigQuery

O Data Science Agent (DSA) para o Colab Enterprise e o BigQuery permite-lhe automatizar a análise exploratória de dados, realizar tarefas de aprendizagem automática e fornecer estatísticas, tudo num bloco de notas do Colab Enterprise.

Antes de começar

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Para novos projetos, a API BigQuery é ativada automaticamente.

Se for a primeira vez que usa o Colab Enterprise no BigQuery, consulte os passos de configuração na página Criar blocos de notas.

Limitações

O agente de ciência de dados é compatível com as seguintes origens de dados:
- Ficheiros CSV
- Tabelas do BigQuery
O código produzido pelo Data Science Agent só é executado no tempo de execução do seu bloco de notas.
O Data Science Agent não é suportado em projetos que tenham ativado os VPC Service Controls.
A pesquisa de tabelas do BigQuery através da função @mention está limitada ao seu projeto atual. Use o seletor de tabelas para pesquisar em vários projetos.
A função @mention só procura tabelas do BigQuery. Para pesquisar ficheiros de dados que pode carregar, use o símbolo +.
O PySpark no Data Science Agent só gera código Serverless para Apache Spark 4.0. O DSA pode ajudar a atualizar para o Serverless para Apache Spark 4.0, mas os utilizadores que precisem de versões anteriores não devem usar o Data Science Agent.

Quando usar o Data Science Agent

O Data Science Agent ajuda com tarefas que vão desde a análise exploratória de dados à geração de previsões e previsões de aprendizagem automática. Pode usar os anúncios dinâmicos de pesquisa para:

Processamento de dados em grande escala: use o BigQuery ML, os BigQuery DataFrames ou o Serverless para Apache Spark para realizar o processamento de dados distribuído em grandes conjuntos de dados. Isto permite-lhe limpar, transformar e analisar de forma eficiente dados demasiado grandes para caberem na memória de uma única máquina.
Gerar um plano: gere e modifique um plano para concluir uma tarefa específica através de ferramentas comuns, como Python, SQL, Serverless para Apache Spark e BigQuery DataFrames.
Exploração de dados: explore um conjunto de dados para compreender a respetiva estrutura, identificar potenciais problemas, como valores em falta e valores atípicos, e examinar a distribuição de variáveis importantes através de Python ou SQL.
Limpeza de dados: limpe os seus dados. Por exemplo, remova pontos de dados que sejam valores atípicos.
Organização de dados: converta as caraterísticas categóricas em representações numéricas usando técnicas como a codificação one-hot ou a codificação de etiquetas, ou usando as ferramentas de transformação de caraterísticas do BigQuery ML. Criar novas funcionalidades para análise.
Análise de dados: analise as relações entre diferentes variáveis. Calcular correlações entre funcionalidades numéricas e explorar distribuições de funcionalidades categóricas. Procure padrões e tendências nos dados.
Visualização de dados: crie visualizações, como histogramas, gráficos de caixa, gráficos de dispersão e gráficos de barras, que representam as distribuições de variáveis individuais e as relações entre elas. Também pode criar visualizações em Python para tabelas armazenadas no BigQuery.
Engenharia de funcionalidades: crie novas funcionalidades a partir de um conjunto de dados limpo.
Divisão de dados: divida um conjunto de dados criado em conjuntos de dados de preparação, validação e teste.
Preparação de modelos: prepare um modelo usando os dados de preparação num pandas DataFrame (X_train, y_train), BigQuery DataFrames, um PySpark DataFrame ou usando a declaração CREATE MODEL do BigQuery ML com tabelas do BigQuery.
Otimização do modelo: otimize um modelo usando o conjunto de validação. Explore modelos alternativos, como DecisionTreeRegressor e RandomForestRegressor, e compare o respetivo desempenho.
Avaliação do modelo: avalie o desempenho do modelo num conjunto de dados de teste usando um DataFrame do pandas, DataFrames do BigQuery ou um DataFrame do PySpark. Também pode avaliar a qualidade do modelo e comparar modelos usando as funções de avaliação de modelos do BigQuery ML para modelos preparados com o BigQuery ML.
Inferência de modelos: faça inferências com modelos preparados do BigQuery ML, modelos importados e modelos remotos através das funções de inferência do BigQuery ML. Também pode usar o método BigFrames model.predict() ou os transformadores PySpark para fazer previsões.

Use o agente de ciência de dados no BigQuery

Os passos seguintes mostram como usar o agente de ciência de dados no BigQuery.

Crie ou abra um bloco de notas do Colab Enterprise.
Faça referência aos seus dados de uma das seguintes formas:
- Carregue um ficheiro CSV ou use o símbolo + no seu comando para pesquisar ficheiros disponíveis
- Escolha uma ou mais tabelas do BigQuery no seletor de tabelas do seu projeto atual ou de outros projetos aos quais tem acesso
- Referencie um nome de tabela do BigQuery no seu comando neste formato: project_id:dataset.table
- Escreva o símbolo @ para pesquisar um nome de tabela do BigQuery com a função @mention
Introduza um comando que descreva a análise de dados que quer realizar ou o protótipo que quer criar. O comportamento predefinido do agente de ciência de dados é gerar código Python com bibliotecas de código aberto, como a sklearn, para realizar tarefas complexas de aprendizagem automática. Para usar uma ferramenta específica, inclua as seguintes palavras-chave no seu comando:
- Se quiser usar o BigQuery ML, inclua a palavra-chave "SQL".
- Se quiser usar "BigQuery DataFrames", especifique as palavras-chave "BigFrames" ou "BigQuery DataFrames".
- Se quiser usar o PySpark, inclua as palavras-chave "Apache Spark" ou "PySpark".
Para receber ajuda, consulte os exemplos de comandos.
Examine os resultados.

Analise um ficheiro CSV

Para analisar um CSV com o agente de ciência de dados no BigQuery, siga estes passos.

Aceda à página do BigQuery.

Aceda ao BigQuery
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Bloco de notas.

Em alternativa, na barra de separadores, clique na seta de menu pendente junto ao ícone + e, de seguida, clique em Bloco de notas > Bloco de notas vazio.
Na barra de ferramentas, clique no botão faísca Ativar/desativar Gemini para abrir a caixa de diálogo de chat.

Nota: pode mover a caixa de diálogo do chat para um painel separado fora do bloco de notas clicando no ícone Mover para o painel.
Carregue o ficheiro CSV.
1. Na caixa de diálogo do chat, clique em Adicionar ao Gemini > Carregar.
2. Se necessário, autorize a sua Conta Google.
3. Navegue até à localização do ficheiro CSV e, de seguida, clique em Abrir.
Em alternativa, escreva o símbolo + no comando para pesquisar ficheiros disponíveis para carregamento.
Introduza o seu comando na janela de chat. Por exemplo: Identify trends and anomalies in this file.
Clique em Enviar. Os resultados são apresentados na janela do chat.
Pode pedir ao agente para alterar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no bloco de notas. Clique em Cancelar para parar.

Analise tabelas do BigQuery

Para analisar uma tabela do BigQuery, escolha uma ou mais tabelas no seletor de tabelas, forneça uma referência à tabela no comando ou pesquise uma tabela através do símbolo @.

Aceda à página do BigQuery.

Aceda ao BigQuery
Na página de boas-vindas do BigQuery Studio, em Criar novo, clique em Bloco de notas.

Em alternativa, na barra de separadores, clique na seta de menu pendente junto ao ícone + e, de seguida, clique em Bloco de notas > Bloco de notas vazio.
Na barra de ferramentas, clique no botão faísca Ativar/desativar o Gemini para abrir a caixa de diálogo de chat.

Nota: pode mover a caixa de diálogo do chat para um painel separado fora do bloco de notas clicando no ícone Mover para o painel.
Introduza o seu comando na janela de chat.
Faça referência aos seus dados de uma das seguintes formas:
1. Escolha uma ou mais tabelas através do seletor de tabelas:
  1. Clique em Adicionar ao Gemini > Tabelas do BigQuery.
  2. Na janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. Pode pesquisar tabelas em todos os projetos e filtrar tabelas através da barra de pesquisa.
2. Inclua um nome de tabela do BigQuery diretamente no comando. Por exemplo: "Ajuda-me a fazer uma análise exploratória de dados e a obter estatísticas sobre os dados nesta tabela: project_id:dataset.table."
  
  Substitua o seguinte:
  - project_id: o ID do seu projeto
  - dataset: o nome do conjunto de dados que contém a tabela que está a analisar
  - table: o nome da tabela que está a analisar
3. Escreva @ para pesquisar uma tabela do BigQuery no seu projeto atual.
Clique em Enviar.

Os resultados são apresentados na janela do chat.
Pode pedir ao agente para alterar o plano ou executá-lo clicando em Aceitar e executar. À medida que o plano é executado, o código e o texto gerados aparecem no bloco de notas. Para passos adicionais no plano, pode ter de clicar novamente em Aceitar e executar. Clique em Cancelar para parar.

Exemplos de comandos

Independentemente da complexidade do comando que usar, o Data Science Agent gera um plano que pode refinar para satisfazer as suas necessidades.

Os exemplos seguintes mostram os tipos de comandos que pode usar com os ADS.

Comandos Python

O código Python é gerado por predefinição, a menos que use uma palavra-chave específica no comando, como "BigQuery ML" ou "SQL".

Investigue e preencha os valores em falta através do algoritmo de aprendizagem automática k-Nearest Neighbors (KNN).
Crie um gráfico do salário por nível de experiência. Use a coluna experience_level para agrupar os salários e criar um gráfico de caixa para cada grupo que mostre os valores da coluna salary_in_usd.
Use o algoritmo XGBoost para criar um modelo para determinar a classvariável de um fruto específico. Dividir os dados em conjuntos de dados de preparação e teste para gerar um modelo e determinar a precisão do modelo. Crie uma matriz de confusão para mostrar as previsões em cada classe, incluindo todas as previsões corretas e incorretas.
Previsão de target_variable a partir de filename.csv para os próximos seis meses.

Comandos SQL e BigQuery ML

Crie e avalie um modelo de classificação em bigquery-public-data.ml_datasets.census_adult_income usando SQL do BigQuery.
Usando SQL, preveja o tráfego futuro do meu Website para o próximo mês com base em bigquery-public-data.google_analytics_sample.ga_sessions_*. Em seguida, represente graficamente os valores históricos e previstos.
Agrupe clientes semelhantes para criar campanhas de marketing de segmentação usando um modelo KMeans e funções SQL do BigQuery ML. Use três caraterísticas para a agrupamento. Em seguida, visualize os resultados criando uma série de gráficos de dispersão 2D. Use a tabela bigquery-public-data.ml_datasets.census_adult_income.
Gere incorporações de texto no BigQuery ML com o conteúdo das críticas em bigquery-public-data.imdb.reviews.

Para ver uma lista dos modelos e das tarefas de aprendizagem automática suportados, consulte a documentação do BigQuery ML.

Comandos de DataFrame

Crie um pandas DataFrame para os dados em project_id:dataset.table. Analise os dados quanto a valores nulos e, em seguida, represente graficamente a distribuição de cada coluna através do tipo de gráfico. Use gráficos de violino para valores medidos e gráficos de barras para categorias.
Leia filename.csv e construa um DataFrame. Execute a análise no DataFrame para determinar o que tem de ser feito com os valores. Por exemplo, existem valores em falta que têm de ser substituídos ou removidos, ou existem linhas duplicadas que têm de ser resolvidas. Use o ficheiro de dados para determinar a distribuição do dinheiro investido em USD por localização da cidade. Represente graficamente os 20 principais resultados através de um gráfico de barras que mostre os resultados por ordem descendente como Localização versus Valor médio investido (USD).
Crie e avalie um modelo de classificação em project_id:dataset.table usando DataFrames do BigQuery.
Crie um modelo de previsão de séries cronológicas em project_id:dataset.table usando DataFrames do BigQuery e visualize as avaliações do modelo.
Visualize os números de vendas no último ano na tabela do BigQuery project_id:dataset.table usando os DataFrames do BigQuery.
Encontre as caraterísticas que melhor podem prever a espécie de pinguim a partir da tabela bigquery-public_data.ml_datasets.penguins usando DataFrames do BigQuery.

Comandos do PySpark

Crie e avalie um modelo de classificação no project_id:dataset.table usando o Serverless para Apache Spark.
Agrupe clientes semelhantes para criar campanhas de segmentação de mercado, mas primeiro faça a redução da dimensionalidade com um modelo de PCA. Use o PySpark para o fazer na tabela project_id:dataset.table.

Desative o Gemini no BigQuery

Para desativar o Gemini no BigQuery para um Google Cloud projeto, um administrador tem de desativar a API Gemini para o Google Cloud. Consulte a secção Desativar serviços.

Para desativar o Gemini no BigQuery para um utilizador específico, um administrador tem de revogar a função Utilizador do Gemini para o Google Cloud (roles/cloudaicompanion.user) para esse utilizador. Consulte o artigo Revogue uma única função do IAM.

Preços

Durante a pré-visualização, é-lhe cobrado o código de execução no tempo de execução do bloco de notas e por todos os slots do BigQuery que usou. Para mais informações, consulte os preços do Colab Enterprise.

Regiões suportadas

Para ver as regiões suportadas pelo agente de ciência de dados do Colab Enterprise, consulte o artigo Localizações.