代管式笔记本简介

Vertex AI Workbench 代管式笔记本实例是 Google 管理的环境,该环境具有的集成和功能可帮助您在基于 Jupyter 笔记本的端到端生产环境中进行设置和工作。

托管式笔记本实例预封装了 JupyterLab,并预安装了深度学习软件包套件,包括 TensorFlow 和 PyTorch 框架支持。代管式笔记本实例支持 GPU 加速器并支持与 GitHub 代码库同步。您的代管式笔记本实例受 Google Cloud 身份验证和授权功能的保护。

Google 管理的计算基础架构

Vertex AI Workbench 代管式笔记本实例是一个由 Google 管理的基于 Jupyter 笔记本的计算基础架构。

创建代管式笔记本实例时,它将部署为租户项目中由 Google 管理的虚拟机 (VM) 实例。

您的代管式笔记本实例包含许多常见的数据科学框架环境,例如 TensorFlow 和 PyTorch。您还可以将自己的自定义容器映像添加到代管式笔记本实例。这些环境作为内核提供,您可以在其中运行笔记本文件。

当您在其中一个内核中运行笔记本时,Vertex AI Workbench 会启动相应的容器,在其上创建 Jupyter 会话,并使用该 Jupyter 会话在容器上运行您的笔记本。

此 Google 管理的计算基础架构包含可帮助您从头到尾实现数据科学和机器学习工作流的集成和功能。有关详情,请参阅以下部分。

使用自定义容器

您可以将自定义 Docker 容器映像添加到代管式笔记本实例,以便在针对需求自定义的环境中运行笔记本代码。

您可以直接通过 JupyterLab 界面使用这些自定义容器和预安装的框架。如需了解详情,请参阅将自定义容器添加到代管式笔记本实例

基于笔记本的工作流

使用代管式笔记本实例,您无需离开 JupyterLab 界面即可执行面向工作流的任务。

通过 JupyterLab 控制硬件和框架

在代管式笔记本实例中,您通过 JupyterLab 界面指定用于运行代码的计算资源。例如,您可以配置所需的 vCPU 或 GPU 数量、所需的 RAM 大小以及您希望在其中运行代码的框架。您可以先编写代码,然后在不离开 JupyterLab 或不重启实例的情况下选择如何运行代码。为了快速测试代码,您可以缩减硬件,然后在需要对更多数据运行代码时再进行扩容。

数据的访问权限

您无需离开 JupyterLab 界面即可访问数据。

在代管式笔记本实例上的 JupyterLab 导航菜单中,您可以使用 Cloud Storage 集成来浏览您有权访问的数据和其他文件。请参阅从 JupyterLab 访问 Cloud Storage 存储桶和文件

您还可以使用 BigQuery 集成功能浏览您有权访问的表、编写查询、预览结果以及将数据加载到笔记本中。请参阅从 JupyterLab 查询 BigQuery 表中的数据

执行笔记本运行

使用执行程序将笔记本文件作为一次性执行来运行或按时间表来运行。选择要在其中运行执行的特定环境和硬件。您的笔记本代码将在 Vertex AI 自定义训练上运行,这样可让您更轻松地执行分布式训练、优化超参数或安排持续训练作业。请参阅使用执行程序运行笔记本文件

您可以在执行中使用参数,以便对每次运行进行特定更改。例如,您可以指定使用其他数据集、更改模型的学习速率,或更改模型的版本。

您还可以将笔记本设置为定期运行。即使您的实例已关停,Vertex AI Workbench 也会运行您的笔记本文件并保存结果以供您查看并与他人分享。

共享数据分析

执行的笔记本运行存储在 Cloud Storage 存储桶中,因此您可以通过授予对结果的访问权限来共享您的数据分析。请参阅关于执行笔记本运行的上一部分

保护您的实例

您可以使用默认的 Google 代管网络部署代管式笔记本实例,该网络使用默认 VPC 网络和子网。您也可以不使用默认网络,而是指定用于实例的 VPC 网络。如需了解详情,请参阅设置网络。您可以使用 VPC Service Controls 为托管式笔记本实例提供额外的安全保护。

如需在服务边界内使用托管式笔记本,请参阅在服务边界内使用托管式笔记本实例

默认情况下,Google Cloud 会使用 Google 管理的加密密钥自动加密静态数据。如果您对保护数据的密钥有特定的合规性或监管要求,则可以将客户管理的加密密钥 (CMEK) 用于代管式笔记本实例。如需了解详情,请参阅使用 CMEK(客户管理的加密密钥)

空闲实例自动关停

为帮助管理费用,默认情况下,代管式笔记本实例在空闲一段时间后会关停。您可以更改时长或关闭此功能。如需了解详情,请参阅空闲机器关停

Dataproc 集成

您可以通过在 Dataproc 集群上运行笔记本来快速处理数据。设置集群后,您可以在不离开 JupyterLab 界面的情况下在集群中运行笔记本文件。如需了解详情,请参阅在 Dataproc 集群上运行代管式笔记本实例

限制

在规划项目时,请考虑代管式笔记本的以下限制:

  • 代管式笔记本实例由 Google 管理,因此其可自定义程度低于 Vertex AI Workbench 用户管理的笔记本实例。对于需要较大的环境控制权的用户而言,用户管理的笔记本实例更为理想。如需了解详情,请参阅用户管理的笔记本简介

  • 不支持第三方 JupyterLab 扩展程序。

  • 代管式笔记本不支持 Dataproc JupyterLab 插件,但您可以在 Vertex AI Workbench 实例中使用该插件。请参阅创建启用了 Dataproc 的实例

  • 代管式笔记本实例不允许用户拥有 sudo 访问权限。

  • 使用 Access Context ManagerChrome 企业进阶版通过情境感知访问权限控制保护托管式笔记本实例时,系统会在每次用户向实例进行身份验证时评估其访问权限。例如,系统会在用户首次访问 JupyterLab 时评估访问权限,还会在之后每次访问时评估访问权限(如果用户网络浏览器的 Cookie 过期)。

  • 如需将加速器与托管式笔记本实例搭配使用,所需的加速器类型必须在实例的可用区可用。如需了解各可用区的加速器可用性,请参阅 GPU 区域和可用区可用性

后续步骤