Use o Agente de ciência de dados
Este guia descreve como pode usar o Data Science Agent no Colab Enterprise para ajudar a realizar tarefas de ciência de dados nos seus blocos de notas.
Saiba como e quando o Gemini para Google Cloud usa os seus dados.
Este documento destina-se a analistas, cientistas e programadores de dados que trabalham com o Colab Enterprise. Parte do princípio de que tem conhecimentos sobre como escrever código num ambiente de bloco de notas.
Capacidades do Data Science Agent
O Data Science Agent pode ajudar com tarefas que vão desde a análise exploratória de dados à geração de previsões e previsões de aprendizagem automática. Pode usar o Data Science Agent para:
- Gerar planos: gere e modifique um plano para concluir uma tarefa específica.
- Exploração de dados: explore um conjunto de dados para compreender a respetiva estrutura, identificar potenciais problemas, como valores em falta e valores atípicos, e examinar a distribuição das principais variáveis.
- Limpeza de dados: limpe os seus dados. Por exemplo, remova pontos de dados que sejam valores atípicos.
- Organização de dados: converta as caraterísticas categóricas em representações numéricas através de técnicas como a codificação one-hot ou a codificação de etiquetas. Criar novas funcionalidades para análise.
- Análise de dados: analise as relações entre diferentes variáveis. Calcular correlações entre funcionalidades numéricas e explorar distribuições de funcionalidades categóricas. Procure padrões e tendências nos dados.
- Visualização de dados: crie visualizações, como histogramas, gráficos de caixa, gráficos de dispersão e gráficos de barras, que representam as distribuições de variáveis individuais e as relações entre elas.
- Engenharia de funcionalidades: crie novas funcionalidades a partir de um conjunto de dados limpo.
- Divisão de dados: divida um conjunto de dados criado em conjuntos de dados de preparação, validação e teste.
- Preparação do modelo: preparar um modelo através dos dados de preparação.
- Otimização do modelo: otimize um modelo usando o conjunto de validação.
Explore modelos alternativos, como
DecisionTreeRegressor
eRandomForestRegressor
, e compare o respetivo desempenho. - Avaliação do modelo: avalie o modelo com melhor desempenho no conjunto de dados de teste.
Limitações
- O agente de ciência de dados é compatível com as seguintes origens de dados:
- Ficheiros CSV
- Tabelas do BigQuery
- O código produzido pelo Data Science Agent só é executado no tempo de execução do seu bloco de notas.
- O bloco de notas tem de estar numa região suportada pelo Data Science Agent. Consulte Localizações.
- O Data Science Agent não é suportado em projetos que tenham ativado os VPC Service Controls.
- Na primeira vez que executar o agente de ciência de dados, pode ocorrer alguma latência de aproximadamente cinco a dez minutos. Isto só ocorre uma vez por projeto durante a configuração inicial.
- A pesquisa de tabelas do BigQuery através da função
@mention
está limitada ao seu projeto atual. Use o seletor de tabelas para pesquisar em vários projetos. - A função
@mention
só procura tabelas do BigQuery. Para pesquisar ficheiros de dados que pode carregar, use o símbolo+
.
Antes de começar
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
-
Create a project: To create a project, you need the Project Creator
(
roles/resourcemanager.projectCreator
), which contains theresourcemanager.projects.create
permission. Learn how to grant roles.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (
roles/serviceusage.serviceUsageAdmin
), which contains theserviceusage.services.enable
permission. Learn how to grant roles. -
Na Google Cloud consola, aceda à página Os meus blocos de notas do Colab Enterprise.
-
No menu Região, selecione a região que contém o seu bloco de notas.
-
Clique no bloco de notas que quer abrir.
-
Na barra de ferramentas, clique no botão
Gemini para abrir a caixa de diálogo do chat. - Na caixa de diálogo do chat, clique em > Carregar. Adicionar ficheiros
-
Se necessário, autorize a sua Conta Google.
Aguarde um momento para que o Colab Enterprise inicie um tempo de execução e ative a navegação de ficheiros.
- Navegue até à localização do ficheiro e, de seguida, clique em Abrir.
-
Clique em OK para confirmar que os ficheiros deste tempo de execução vão ser eliminados quando o tempo de execução for eliminado.
O ficheiro é carregado para o painel Ficheiros e aparece na janela de chat.
-
Na Google Cloud consola, aceda à página Os meus blocos de notas do Colab Enterprise.
-
No menu Região, selecione a região que contém o seu bloco de notas.
-
Clique no bloco de notas que quer abrir.
-
Na barra de ferramentas, clique no botão
Gemini para abrir a caixa de diálogo do chat. -
Para fazer referência aos seus dados, efetue uma das seguintes ações:
-
Escolha uma ou mais tabelas através do seletor de tabelas:
- Clique em > Tabelas do BigQuery. Adicionar ao Gemini
- Na janela Tabelas do BigQuery, selecione uma ou mais tabelas no seu projeto. Pode pesquisar tabelas em todos os projetos e filtrar tabelas através da barra de pesquisa.
-
Inclua um nome de tabela do BigQuery diretamente no comando. Por exemplo: "Ajuda-me a fazer uma análise exploratória de dados e a obter estatísticas sobre os dados nesta tabela:
PROJECT_ID:DATASET.TABLE
."Substitua o seguinte:
PROJECT_ID
: o ID do seu projeto.DATASET
: o nome do conjunto de dados que contém a tabela que está a analisar.TABLE
: o nome da tabela que está a analisar.
-
Escreva
@
para pesquisar uma tabela do BigQuery no seu projeto atual.
-
-
Na caixa de diálogo do chat do Gemini, introduza um comando e clique em capacidades do Data Science Agent e consulte exemplos de comandos.
Enviar. Para receber ideias de comandos, reveja asPor exemplo, pode introduzir "Fornece uma análise dos dados que carreguei".
-
O Gemini responde ao seu comando. A resposta pode incluir fragmentos de código para executar, conselhos gerais para o seu projeto, passos seguintes para alcançar os seus objetivos ou informações sobre problemas específicos nos seus dados ou código.
Depois de avaliar a resposta, pode fazer o seguinte:
- Se o Gemini fornecer código na respetiva resposta, pode clicar em:
- Aceite para adicionar o código ao seu bloco de notas.
- Aceite e execute para adicionar o código ao seu bloco de notas e executar o código.
- Cancelar para eliminar o código sugerido.
- Fazer perguntas de seguimento e continuar a discussão, conforme necessário.
- Se o Gemini fornecer código na respetiva resposta, pode clicar em:
-
Para fechar a caixa de diálogo Gemini, clique em
Fechar. - Encontre e preencha os valores em falta através do algoritmo de aprendizagem automática k-Nearest Neighbors (KNN).
- Crie um gráfico de salários por nível de experiência. Use a coluna
experience_level
para agrupar os salários e criar um gráfico de caixa para cada grupo que mostre os valores da colunasalary_in_usd
. - Use o algoritmo XGBoost para criar um modelo de determinação da
class
variável de um fruto específico. Divida os dados em conjuntos de dados de preparação e de teste para gerar um modelo e, em seguida, avalie a precisão do modelo. Crie uma matriz de confusão para mostrar as previsões de cada classe, incluindo todas as previsões corretas e incorretas. - Cria um dataframe pandas para os meus dados. Analise os dados quanto a valores nulos e, em seguida, visualize a distribuição de cada coluna através de gráficos de violino para valores medidos e gráficos de barras para categorias.
- Leia o ficheiro CSV para o conjunto de dados e crie um DataFrame, execute uma análise no DataFrame para determinar o que tem de ser feito com os valores (substituir ou remover valores em falta, remover linhas duplicadas) e determine a distribuição do valor investido em USD por localização da cidade. Visualize os resultados num gráfico de barras por ordem descendente como Localização vs. valor médio investido (USD), mostrando apenas os 20 principais resultados.
- Previsão de
target_variable
defilename.csv
para os próximos seis meses. - Crie e avalie um modelo de classificação no
filename.csv
paratarget_variable
. Para mais informações sobre como usar o Data Science Agent com o BigQuery, consulte o artigo Use o Data Science Agent do Colab Enterprise com o BigQuery.
Para saber mais formas de escrever e editar código com a assistência do Gemini, consulte o seguinte:
Funções necessárias
Para receber as autorizações de que
precisa para usar o Data Science Agent no Colab Enterprise,
peça ao seu administrador para lhe conceder a função do IAM
Utilizador do Colab Enterprise (roles/aiplatform.colabEnterpriseUser
)
no projeto.
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.
Consulte os seus dados
Para permitir que o agente de ciência de dados do Colab Enterprise aceda e trabalhe com os seus dados, pode carregar um ficheiro CSV ou fazer referência a uma tabela do BigQuery.
Ficheiro CSV
tabela do BigQuery
Use o Agente de ciência de dados
Para começar a usar o Data Science Agent do Colab Enterprise, faça o seguinte:
Desative o Gemini no Colab Enterprise
Para desativar o Gemini no Colab Enterprise para um Google Cloud projeto, um administrador tem de desativar a API Gemini para o Google Cloud. Consulte a secção Desativar serviços.
Para desativar o Gemini no Colab Enterprise para um utilizador específico, um administrador tem de revogar a função Utilizador do Gemini para o Google Cloud (roles/cloudaicompanion.user
) desse utilizador. Consulte o artigo
Revogue
uma única função do IAM.
Exemplos de comandos
Os exemplos seguintes mostram os tipos de comandos que pode usar com o agente de ciência de dados.
Regiões suportadas
Para ver as regiões suportadas pelo Data Science Agent do Colab Enterprise, consulte o artigo Localizações.
Faturação
Durante a pré-visualização, só lhe é cobrado o código de execução no tempo de execução do bloco de notas. Para mais informações, consulte os preços do Colab Enterprise.