使用数据科学代理

本指南介绍了如何使用 Colab Enterprise 中的数据科学代理来帮助您在笔记本中执行数据科学任务。

了解 Gemini for Google Cloud 如何以及何时使用您的数据

本文档适用于使用 Colab Enterprise 的数据分析师、数据科学家和数据开发者。本文档假定您了解如何在笔记本环境中编写代码。

Data Science Agent 的功能

Data Science Agent 可以帮助您完成各种任务,从探索性数据分析到生成机器学习预测和预测结果,无所不能。您可以使用 Data Science Agent 执行以下操作:

  • 生成方案:生成和修改方案以完成特定任务。
  • 数据探索:探索数据集以了解其结构、识别缺失值和离群值等潜在问题,并检查关键变量的分布情况。
  • 数据清理:清理数据。例如,移除离群数据点。
  • 数据整理:使用独热编码或标签编码等技术将分类特征转换为数值表示法。创建新的分析功能。
  • 数据分析:分析不同变量之间的关系。 计算数值特征之间的相关性,并探索分类特征的分布。寻找数据中的模式和趋势。
  • 数据可视化:创建直方图、箱线图、散点图和条形图等可视化图表,以表示单个变量的分布以及它们之间的关系。
  • 特征工程:从清理后的数据集中设计新特征。
  • 数据拆分:将工程化数据集拆分为训练数据集、验证数据集和测试数据集。
  • 模型训练:使用训练数据训练模型。
  • 模型优化:使用验证集优化模型。 探索 DecisionTreeRegressorRandomForestRegressor 等替代模型,并比较它们的性能。
  • 模型评估:在测试数据集上评估性能最佳的模型。

限制

  • Data Science Agent 支持以下数据源:
    • CSV 文件
    • BigQuery 表
  • Data Science Agent 生成的代码仅在笔记本的运行时中运行。
  • 您的笔记本必须位于数据科学代理支持的区域中。请参阅地点
  • 如果项目已启用 VPC Service Controls,则不支持数据科学代理。
  • 首次运行 Data Science Agent 时,您可能会遇到大约 5 到 10 分钟的延迟。此操作仅在初始设置期间针对每个项目执行一次。

准备工作

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  8. 所需的角色

    如需获得在 Colab Enterprise 中使用 Data Science Agent 所需的权限,请让您的管理员为您授予项目的 Colab Enterprise User (roles/aiplatform.colabEnterpriseUser) IAM 角色。 如需详细了解如何授予角色,请参阅管理对项目、文件夹和组织的访问权限

    您也可以通过自定义角色或其他预定义角色来获取所需的权限。

    使用数据科学代理

    如需开始使用 Colab Enterprise 的数据科学代理,请执行以下操作:

    1. 在 Google Cloud 控制台中,前往 Colab Enterprise 我的笔记本页面。

      前往我的笔记本

    2. 区域菜单中,选择包含笔记本的区域。

    3. 点击您要打开的笔记本。

    4. 在工具栏中,点击  Gemini 按钮以打开对话框。

    5. 如需上传 CSV 文件,请执行以下操作:

      1. 在聊天对话框中,点击 添加文件
      2. 如有必要,请授权您的 Google 账号。

        等待片刻,让 Colab Enterprise 启动运行时并启用文件浏览功能。

      3. 文件窗格中,点击  上传到会话存储空间
      4. 浏览到相应文件的位置,然后点击打开
      5. 点击确定,确认此运行时被删除后,此运行时的文件也将被删除。

        文件会上传到文件窗格。

      6. 在您上传的文件旁边,点击 操作菜单,然后选择添加到 Gemini

        系统会将该文件添加到聊天对话中。

    6. Gemini 对话框中,输入提示,然后点击  发送。 如需获取提示方面的灵感,请查看 [Data Science Agent 功能](#capabilities) 并参阅 [提示示例](#sample-prompts)。

      例如,您可以输入“分析我上传的数据”。

    7. Gemini 会针对您的提示给出回答。回答可以包括要运行的代码段、有关项目的常规建议、实现目标的后续步骤,或有关数据或代码中特定问题的信息。

      评估回答后,您可以执行以下操作:

      • 如果 Gemini 在回答中提供代码,您可以点击:
        • 点击接受,将代码添加到笔记本中。
        • 点击接受并运行,将代码添加到笔记本并运行代码。
        • 点按取消可删除建议的代码。
      • 提出后续问题,并根据需要继续讨论。
    8. 如需关闭 Gemini 对话框,请点击  关闭

    停用 Gemini in Colab Enterprise

    如需针对某个 Google Cloud 项目停用 Colab Enterprise 中的 Gemini,管理员必须停用 Gemini for Google Cloud API。请参阅停用服务

    如需为特定用户停用 Colab Enterprise 中的 Gemini,管理员需要撤消该用户的 Gemini for Google Cloud User (roles/cloudaicompanion.user) 角色。请参阅撤消单个 IAM 角色

    示例提示

    以下示例展示了您可以使用数据科学代理的提示类型。

    • 使用 k 最近邻 (KNN) 机器学习算法查找并填充缺失值。
    • 创建按经验水平划分的薪资图。使用 experience_level 列对薪资进行分组,并为每个组创建一个箱线图,以显示 salary_in_usd 列中的值。
    • 使用 XGBoost 算法创建一个模型,用于确定特定水果的 class 变量。将数据拆分为训练数据集和测试数据集,以生成模型,然后评估模型的准确性。 创建混淆矩阵以显示每个类别的预测结果,包括所有正确和错误的预测结果。
    • 为我的数据创建 pandas DataFrame。分析数据中的 null 值,然后使用小提琴图(针对测量值)和条形图(针对类别)直观呈现每个列的分布情况。
    • 读取数据集的 CSV 文件并构建 DataFrame,对 DataFrame 运行分析以确定需要对值执行的操作(替换或移除缺失值、移除重复行),并确定每个城市位置的投资金额(以美元为单位)的分布情况。以条形图的形式直观呈现结果,按降序显示“位置”与“平均投资金额(美元)”的对比关系,仅显示前 20 个结果。
    • 未来六个月的预测值:target_variable(从 filename.csv 开始)。
    • 基于 filename.csv 构建和评估 target_variable 的分类模型。

    支持的区域

    如需查看 Colab Enterprise 的 Data Science Agent 支持的区域,请参阅位置

    结算

    在预览版期间,您只需为在笔记本的运行时中运行的代码付费。如需了解详情,请参阅 Colab Enterprise 价格

    后续步骤