在 Dataproc 集群上安装并运行 Jupyter 笔记本

准备工作

如果您尚未创建 Google Cloud Platform 项目和 Cloud Storage 存储分区,请首先创建这些资源。

设置项目

  1. 登录您的 Google 帐号。

    如果您还没有 Google 帐号,请注册一个新帐号

  2. 在 Cloud Console 的项目选择器页面上,选择或创建 Cloud 项目。

    转到项目选择器页面

  3. 确保您的 Google Cloud 项目已启用结算功能。 了解如何确认您的项目已启用结算功能

  4. 启用 Dataproc and Compute Engine API。

    启用 API

  5. 安装并初始化 Cloud SDK

在项目中创建 Cloud Storage 存储分区

  1. 在 Cloud Console 中,转到 Cloud Storage 浏览器页面。

    转到“Cloud Storage 浏览器”页面

  2. 点击创建存储分区
  3. 创建存储分区对话框中,指定以下属性:
  4. 点击创建
  5. 您的笔记本将存储在 Cloud Storage 中的 gs://bucket-name/notebooks/jupyter 下。

创建集群并安装 Jupyter 组件

gcloud 命令

  1. 在终端窗口或 Cloud Shell 中,以本地运行方式运行以下 gcloud beta dataproc clusters create 命令,以:

    1. 创建集群并在集群的主节点上安装 Jupyter 和 Anaconda 组件
    2. 启用组件网关

    在以下命令中插入 cluster-namebucket-nameproject-id 的值。对于 bucket-name,请指定您在项目中创建 Cloud Storage 存储分区时创建的存储分区的名称(仅指定存储分区的名称)。您的笔记本将存储在 Cloud Storage 中的 gs://bucket-name/notebooks/jupyter 下。

    Linux/macOS

    gcloud beta dataproc clusters create cluster-name \
        --optional-components=ANACONDA,JUPYTER \
        --image-version=1.3 \
        --enable-component-gateway \
        --bucket=bucket-name \
        --region=region \
        --project=project-id
    

    Windows

    gcloud dataproc clusters create cluster-name ^
        --optional-components=ANACONDA,JUPYTER ^
        --image-version=1.3 ^
        --enable-component-gateway ^
        --bucket=bucket-name ^
        --region=region ^
        --project=project-id
    

控制台

  1. 转到 Cloud Console 中 Dataproc 的 Dataproc 集群页面。
  2. 点击创建集群以打开“创建集群”页面。
  3. 名称字段中输入您的集群的名称。
  4. 地区区域下拉菜单中选择集群的地区和区域(请参阅可用的地区和区域)。您还可以指定一个不同的地区,并为区域选择“无偏好”,以便让 Cloud Dataproc 为您的集群选择所选地区内的区域(请参阅 Dataproc 自动选择区域)。您可以改为选择 global 地区,该地区是一个特殊的多区域命名空间,它能够将实例部署到全球所有 Compute Engine 区域(如果选择一个全球地区,您还必须选择一个区域)。
  5. 勾选“组件网关”复选框。
  6. 展开高级选项面板。

  7. Cloud Storage 暂存存储分区字段中,输入在项目中创建 Cloud Storage 时创建的存储分区的名称(仅指定存储分区的名称)。您的笔记本将存储在 Cloud Storage 中的 gs://bucket-name/notebooks/jupyter 下。
  8. 点击“选择组件”以打开“可选组件”选择面板。
  9. 选择“Anaconda”和“Jupyter 笔记本”组件。
  10. 您可以为其他选项使用提供的默认值。

  11. 点击创建以创建集群,并在集群的主节点上安装组件和组件网关。

在本地浏览器中打开 Jupyter 笔记本

  1. 导航到 Google Cloud Console 上的 Dataproc 集群表单,然后选择您的集群以打开集群详细信息表单。点击网页界面标签页以显示组件网关链接列表,这些链接指向安装在集群上的默认组件和可选组件的网页界面。

  2. 点击 Jupyter 链接。Jupyter 笔记本网页界面将在本地浏览器中打开。