在 Dataproc 集群上安装并运行 Jupyter 笔记本

准备工作

如果您尚未创建 Google Cloud Platform 项目和 Cloud Storage 存储分区,请首先创建这些资源。

设置项目

  1. 登录您的 Google 帐号。

    如果您还没有 Google 帐号,请注册新帐号

  2. 在 Google Cloud Console 的项目选择器页面上,选择或创建一个 Google Cloud 项目。

    转到项目选择器页面

  3. 确保您的 Cloud 项目已启用结算功能。 了解如何确认您的项目是否已启用结算功能

  4. 启用 Dataproc and Compute Engine API。

    启用 API

  5. 安装并初始化 Cloud SDK

在项目中创建 Cloud Storage 存储分区

  1. 在 Cloud Console 中,转到 Cloud Storage 浏览器页面。

    转到“Cloud Storage 浏览器”页面

  2. 点击创建存储分区
  3. 创建存储分区对话框中,指定以下特性:
  4. 点击创建
  5. 您的笔记本将存储在 Cloud Storage 中的 gs://bucket-name/notebooks/jupyter 下。

创建集群并安装 Jupyter 组件

gcloud 命令

  1. 在终端窗口或 Cloud Shell 中,以本地运行方式运行以下 gcloud beta dataproc clusters create 命令,以:

    1. 创建集群并在集群的主节点上安装 Jupyter 和 Anaconda 组件
    2. 启用组件网关

    在以下命令中插入 cluster-namebucket-nameproject-id 的值。对于 bucket-name,请指定您在项目中创建 Cloud Storage 存储分区时创建的存储分区的名称(仅指定存储分区的名称)。您的笔记本将存储在 Cloud Storage 中的 gs://bucket-name/notebooks/jupyter 下。

    Linux/macOS

    gcloud beta dataproc clusters create cluster-name \
        --optional-components=ANACONDA,JUPYTER \
        --image-version=1.3 \
        --enable-component-gateway \
        --bucket=bucket-name \
        --region=region \
        --project=project-id
    

    Windows

    gcloud dataproc clusters create cluster-name ^
        --optional-components=ANACONDA,JUPYTER ^
        --image-version=1.3 ^
        --enable-component-gateway ^
        --bucket=bucket-name ^
        --region=region ^
        --project=project-id
    

控制台

  1. 转到 Cloud Console 中 Dataproc 的 Dataproc 集群页面。
  2. 点击创建集群以打开“创建集群”页面。
  3. 名称字段中输入您的集群的名称。
  4. 地区区域下拉菜单中选择集群的地区和区域(请参阅可用的地区和区域)。您还可以指定一个不同的地区,并为区域选择“无偏好”,以便让 Cloud Dataproc 为您的集群选择所选地区内的区域(请参阅 Dataproc 自动选择区域)。您可以改为选择 global 地区,该地区是一个特殊的多区域命名空间,它能够将实例部署到全球所有 Compute Engine 区域(如果选择一个全球地区,您还必须选择一个区域)。
  5. 勾选“组件网关”复选框。
  6. 展开高级选项面板。

  7. Cloud Storage 暂存存储分区字段中,输入在项目中创建 Cloud Storage 时创建的存储分区的名称(仅指定存储分区的名称)。您的笔记本将存储在 Cloud Storage 中的 gs://bucket-name/notebooks/jupyter 下。
  8. 点击“选择组件”以打开“可选组件”选择面板。
  9. 选择“Anaconda”和“Jupyter 笔记本”组件。
  10. 您可以为其他选项使用提供的默认值。

  11. 点击创建以创建集群,并在集群的主节点上安装组件和组件网关。

在本地浏览器中打开 Jupyter 笔记本

  1. 导航到 Google Cloud Console 上的 Dataproc 集群表单,然后选择您的集群以打开集群详细信息表单。点击网页界面标签页以显示组件网关链接列表,这些链接指向安装在集群上的默认组件和可选组件的网页界面。

  2. 点击 Jupyter 链接。Jupyter 笔记本网页界面将在本地浏览器中打开。