将 Colab Enterprise Data Science Agent 与 BigQuery 搭配使用
借助适用于 Colab Enterprise 和 BigQuery 的数据科学代理 (DSA),您可以在 Colab Enterprise 笔记本中自动执行探索性数据分析、执行机器学习任务并提供数据洞见。
准备工作
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
- Data Science Agent 支持以下数据源:
- CSV 文件
- BigQuery 表
- Data Science Agent 生成的代码仅在笔记本的运行时中运行。
- 如果项目已启用 VPC Service Controls,则不支持数据科学代理。
- 首次运行 Data Science Agent 时,您可能会遇到大约 5 到 10 分钟的延迟。此操作仅在初始设置期间针对每个项目执行一次。
- 生成方案:生成和修改方案以完成特定任务。
- 数据探索:探索数据集以了解其结构、识别缺失值和离群值等潜在问题,并检查关键变量的分布情况。
- 数据清理:清理数据。例如,移除离群数据点。
- 数据整理:使用独热编码或标签编码等技术将分类特征转换为数值表示法。创建新的分析功能。
- 数据分析:分析不同变量之间的关系。 计算数值特征之间的相关性,并探索分类特征的分布。寻找数据中的模式和趋势。
- 数据可视化:创建直方图、箱线图、散点图和条形图等可视化图表,以表示各个变量的分布情况以及它们之间的关系。
- 特征工程:从清理后的数据集中设计新特征。
- 数据拆分:将工程化数据集拆分为训练数据集、验证数据集和测试数据集。
- 模型训练:使用训练数据(
X_train
、y_train
)训练模型。 - 模型优化:使用验证集优化模型。
探索
DecisionTreeRegressor
和RandomForestRegressor
等替代模型,并比较它们的性能。 - 模型评估:在测试数据集(
X_test_imputed
、y_test
)上评估性能最佳的模型。 - 创建或打开 Colab Enterprise 笔记本。
- 上传 CSV 文件,从表格选择器中选择一个或多个 BigQuery 表,或在提示中引用 BigQuery 表。
- 输入提示,说明您要执行的数据分析或要构建的原型。如需帮助,请参阅提示示例。
- 查看返回的结果。
转到 BigQuery 页面。
在 BigQuery Studio 欢迎页面上,点击新建下方的笔记本。
或者,在标签页栏中,点击 + 图标旁边的 > 空白笔记本。
下拉箭头,然后依次点击笔记本在工具栏中,点击星光图标 切换 Gemini 按钮,打开对话框。
上传您的 CSV 文件。
在聊天对话框中,点击
添加文件。如有必要,请授权您的 Google 账号。
在操作窗格中,点击
上传文件。浏览到 CSV 文件的位置,然后点击打开。
在文件名旁边,点击
更多操作图标,然后选择添加到 Gemini。
在聊天窗口中输入提示。例如:
Identify trends and anomalies in this file.
点击
发送。结果会显示在聊天窗口中。
您可以要求代理更改方案,也可以点击接受并运行来运行方案。随着方案的运行,生成的代码和文本会显示在笔记本中。点击取消即可停止。
转到 BigQuery 页面。
在 BigQuery Studio 欢迎页面上,点击新建下方的笔记本。
或者,在标签页栏中,点击 + 图标旁边的 > 空白笔记本。
下拉箭头,然后依次点击笔记本在工具栏中,点击星光图标 切换 Gemini 按钮,打开聊天对话框。
在聊天窗口中输入提示。
使用表格选择器选择一个或多个表格:
依次点击 > BigQuery 表。
添加上下文在 BigQuery 表窗口中,选择项目中的一个或多个表。您可以在各个项目中搜索表格,并使用搜索栏过滤表格。
您还可以在提示中直接引用 BigQuery 表。例如:“帮我对以下表格中的数据进行探索性数据分析,并获取相关数据洞见:project_id:dataset。table。”
替换以下内容:
project_id
:您的项目 IDdataset
:要分析的表所属数据集的名称table
:您要分析的表的名称
点击
发送。结果会显示在聊天窗口中。
您可以要求代理更改方案,也可以点击接受并运行来运行方案。随着方案的运行,生成的代码和文本会显示在笔记本中。点击取消即可停止。
- 使用 k-最近邻 (KNN) 机器学习算法来调查和填充缺失值。
- 创建按经验水平划分的薪资图表。使用
experience_level
列对薪资进行分组,并为每个组创建一个箱线图,以显示salary_in_usd
列中的值。 - 使用 XGBoost 算法创建一个模型,用于确定特定水果的
class
变量。将数据拆分为训练数据集和测试数据集,以生成模型并确定模型的准确性。创建混淆矩阵以显示每个类别中的预测,包括所有正确和错误的预测。 - 为我的数据创建 pandas DataFrame。分析数据中的 null 值,然后使用图表类型绘制每个列的分布图。对于测量值,请使用小提琴图;对于类别,请使用条形图。
- 读取数据集的 CSV 文件并构建 DataFrame,对 DataFrame 运行分析以确定需要对值执行哪些操作(替换或移除缺失值、修正重复行),并确定每个城市位置的投资金额(以美元为单位)分布。以条形图的形式按降序绘制结果,其中 x 轴为“位置”,y 轴为“平均投资金额(美元)”,仅绘制前 20 个结果。
- 未来 6 个月的预测值从
filename.csv
开始,为target_variable
。 - 基于
filename.csv
构建和评估target_variable
的分类模型。
如果您刚开始接触 BigQuery 中的 Colab Enterprise,请参阅创建笔记本页面上的设置步骤。
限制
何时使用 Data Science Agent
数据科学代理可帮助您完成各种任务,从探索性数据分析到生成机器学习预测和预报,无所不能。您可以使用 DSA 执行以下操作:
在 BigQuery 中使用 Data Science Agent
以下步骤介绍了如何在 BigQuery 中使用 Data Science Agent。
分析 CSV 文件
如需使用 BigQuery 中的 Data Science Agent 分析 CSV 文件,请按以下步骤操作。
分析 BigQuery 表
如需分析 BigQuery 表,请在表格选择器中选择一个或多个表格,或在提示中提供对表格的引用。
示例提示
无论您使用的提示有多复杂,Data Science Agent 都会生成一个方案,您可以根据自己的需求对其进行优化。
以下示例展示了您可以在 DSA 中使用的提示类型。
停用 Gemini in BigQuery
如需针对某个 Google Cloud 项目停用 BigQuery 中的 Gemini,管理员必须停用 Gemini for Google Cloud API。请参阅停用服务。
如需为特定用户停用 BigQuery 中的 Gemini,管理员需要撤消该用户的 Gemini for Google Cloud User (roles/cloudaicompanion.user
) 角色。请参阅撤消单个 IAM 角色。
价格
在预览版期间,您只需为在笔记本的运行时中运行的代码付费。如需了解详情,请参阅 Colab Enterprise 价格。
支持的区域
如需查看 Colab Enterprise 的 Data Science Agent 支持的区域,请参阅位置。