在 Dataproc 集群上运行代管式笔记本实例

本页面介绍如何在 Dataproc 集群上运行代管式笔记本实例的笔记本文件。

准备工作

登录您的 Google Cloud 账号。如果您是 Google Cloud 新手，请创建一个账号来评估我们的产品在实际场景中的表现。新客户还可获享 $300 赠金，用于运行、测试和部署工作负载。

在 Google Cloud Console 中的项目选择器页面上，选择或创建一个 Google Cloud 项目。

启用 Notebooks and Dataproc API。

在 Google Cloud Console 中的项目选择器页面上，选择或创建一个 Google Cloud 项目。

启用 Notebooks and Dataproc API。

如需确保服务账号拥有在 Dataproc Serverless 集群上运行笔记本文件所需的权限，请让您的管理员为服务账号授予以下 IAM 角色：

如需详细了解如何授予角色，请参阅管理访问权限。

这些预定义角色可提供在 Dataproc Serverless 集群上运行笔记本文件所需的权限。如需查看所需的确切权限，请展开所需权限部分：

在 Dataproc Serverless 集群上运行笔记本文件需要以下权限：

您的管理员也可以使用自定义角色或其他预定义角色为服务账号授予这些权限。

如需在 Dataproc 集群中运行代管式笔记本实例的笔记本文件，您的集群必须满足以下条件：

如需创建 Dataproc 集群，请在 Cloud Shell 中或安装了 Google Cloud CLI 的另一个环境中输入以下命令。

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

请替换以下内容：

几分钟后，您的 Dataproc 集群就可以使用了。详细了解如何创建 Dataproc 集群。

您可以在 Dataproc 集群中运行同一项目和区域中的任何代管式笔记本实例的笔记本文件。

如需在创建笔记本文件后更改要使用的内核，请参阅以下部分。

在代管式笔记本实例的 JupyterLab 界面中，点击 文件浏览器按钮，导航到要运行的笔记本文件，然后将其打开。
如需打开选择内核对话框，请点击笔记本文件的内核名称，例如 Python (Local)。
如需选择 Dataproc 集群中的内核，请选择其末尾包含集群名称的内核名称。例如，名为 mycluster 的 Dataproc 集群上的 PySpark 内核的名称将为 PySpark on mycluster。
点击选择以关闭对话框。

现在，您便可以在 Dataproc 集群上运行笔记本文件的代码。