使用数据科学代理
本指南介绍了如何使用 Colab Enterprise 中的数据科学代理来帮助您在笔记本中执行数据科学任务。
了解 Gemini for Google Cloud 如何以及何时使用您的数据。
本文档适用于使用 Colab Enterprise 的数据分析师、数据科学家和数据开发者。本文档假定您了解如何在笔记本环境中编写代码。
Data Science Agent 的功能
Data Science Agent 可以帮助您完成各种任务,从探索性数据分析到生成机器学习预测和预测结果,无所不能。您可以使用 Data Science Agent 执行以下操作:
- 生成方案:生成和修改方案以完成特定任务。
- 数据探索:探索数据集以了解其结构、识别缺失值和离群值等潜在问题,并检查关键变量的分布情况。
- 数据清理:清理数据。例如,移除离群数据点。
- 数据整理:使用独热编码或标签编码等技术将分类特征转换为数值表示法。创建新的分析功能。
- 数据分析:分析不同变量之间的关系。 计算数值特征之间的相关性,并探索分类特征的分布。寻找数据中的模式和趋势。
- 数据可视化:创建直方图、箱线图、散点图和条形图等可视化图表,以表示单个变量的分布以及它们之间的关系。
- 特征工程:从清理后的数据集中设计新特征。
- 数据拆分:将工程化数据集拆分为训练数据集、验证数据集和测试数据集。
- 模型训练:使用训练数据训练模型。
- 模型优化:使用验证集优化模型。
探索
DecisionTreeRegressor
和RandomForestRegressor
等替代模型,并比较它们的性能。 - 模型评估:在测试数据集上评估性能最佳的模型。
限制
- Data Science Agent 支持以下数据源:
- CSV 文件
- BigQuery 表
- Data Science Agent 生成的代码仅在笔记本的运行时中运行。
- 您的笔记本必须位于数据科学代理支持的区域中。请参阅地点。
- 如果项目已启用 VPC Service Controls,则不支持数据科学代理。
- 首次运行 Data Science Agent 时,您可能会遇到大约 5 到 10 分钟的延迟。此操作仅在初始设置期间针对每个项目执行一次。
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
在 Google Cloud 控制台中,前往 Colab Enterprise 我的笔记本页面。
-
在区域菜单中,选择包含笔记本的区域。
-
点击您要打开的笔记本。
-
在工具栏中,点击
Gemini 按钮以打开对话框。 -
如需上传 CSV 文件,请执行以下操作:
- 在聊天对话框中,点击 添加文件。
-
如有必要,请授权您的 Google 账号。
等待片刻,让 Colab Enterprise 启动运行时并启用文件浏览功能。
- 在文件窗格中,点击 上传到会话存储空间。
- 浏览到相应文件的位置,然后点击打开。
-
点击确定,确认此运行时被删除后,此运行时的文件也将被删除。
文件会上传到文件窗格。
-
在您上传的文件旁边,点击
操作菜单,然后选择添加到 Gemini。系统会将该文件添加到聊天对话中。
-
在 Gemini 对话框中,输入提示,然后点击
发送。 如需获取提示方面的灵感,请查看 [Data Science Agent 功能](#capabilities) 并参阅 [提示示例](#sample-prompts)。例如,您可以输入“分析我上传的数据”。
-
Gemini 会针对您的提示给出回答。回答可以包括要运行的代码段、有关项目的常规建议、实现目标的后续步骤,或有关数据或代码中特定问题的信息。
评估回答后,您可以执行以下操作:
- 如果 Gemini 在回答中提供代码,您可以点击:
- 点击接受,将代码添加到笔记本中。
- 点击接受并运行,将代码添加到笔记本并运行代码。
- 点按取消可删除建议的代码。
- 提出后续问题,并根据需要继续讨论。
- 如果 Gemini 在回答中提供代码,您可以点击:
-
如需关闭 Gemini 对话框,请点击
关闭。 - 使用 k 最近邻 (KNN) 机器学习算法查找并填充缺失值。
- 创建按经验水平划分的薪资图。使用
experience_level
列对薪资进行分组,并为每个组创建一个箱线图,以显示salary_in_usd
列中的值。 - 使用 XGBoost 算法创建一个模型,用于确定特定水果的
class
变量。将数据拆分为训练数据集和测试数据集,以生成模型,然后评估模型的准确性。 创建混淆矩阵以显示每个类别的预测结果,包括所有正确和错误的预测结果。 - 为我的数据创建 pandas DataFrame。分析数据中的 null 值,然后使用小提琴图(针对测量值)和条形图(针对类别)直观呈现每个列的分布情况。
- 读取数据集的 CSV 文件并构建 DataFrame,对 DataFrame 运行分析以确定需要对值执行的操作(替换或移除缺失值、移除重复行),并确定每个城市位置的投资金额(以美元为单位)的分布情况。以条形图的形式直观呈现结果,按降序显示“位置”与“平均投资金额(美元)”的对比关系,仅显示前 20 个结果。
- 未来六个月的预测值:
target_variable
(从filename.csv
开始)。 - 基于
filename.csv
构建和评估target_variable
的分类模型。 如需了解如何将数据科学智能体与 BigQuery 搭配使用,请参阅将 Colab Enterprise 数据科学智能体与 BigQuery 搭配使用。
如需了解在 Gemini 的协助下编写和修改代码的更多方法,请参阅以下内容:
所需的角色
如需获得在 Colab Enterprise 中使用 Data Science Agent 所需的权限,请让您的管理员为您授予项目的 Colab Enterprise User (roles/aiplatform.colabEnterpriseUser
) IAM 角色。
如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限。
使用数据科学代理
如需开始使用 Colab Enterprise 的数据科学代理,请执行以下操作:
停用 Gemini in Colab Enterprise
如需针对某个 Google Cloud 项目停用 Colab Enterprise 中的 Gemini,管理员必须停用 Gemini for Google Cloud API。请参阅停用服务。
如需为特定用户停用 Colab Enterprise 中的 Gemini,管理员需要撤消该用户的 Gemini for Google Cloud User (roles/cloudaicompanion.user
) 角色。请参阅撤消单个 IAM 角色。
示例提示
以下示例展示了您可以使用数据科学代理的提示类型。
支持的区域
如需查看 Colab Enterprise 的 Data Science Agent 支持的区域,请参阅位置。
结算
在预览版期间,您只需为在笔记本的运行时中运行的代码付费。如需了解详情,请参阅 Colab Enterprise 价格。