Dataproc Jupyter 组件

使用可选组件功能创建 Dataproc 集群时,可以安装其他组件。本页面介绍了 Jupyter 组件。

Jupyter 组件是一个基于网页的笔记本,用于交互式数据分析,并且支持 JupyterLab 网页界面。您可以通过集群的第一个主节点上的 8123 端口访问 Jupyter 网页界面。

Jupyter 笔记本提供了一个运行 Spark 代码的 Python 内核和一个 PySpark 内核。默认情况下,笔记本保存在 Cloud Storage 的 Dataproc 暂存存储分区中,该存储分区由用户指定或在创建集群时自动创建。您可以在创建集群时通过 dataproc:jupyter.notebook.gcs.dir 属性更改该位置。

安装 Jupyter

在创建 Dataproc 集群时安装组件。 组件可添加到使用 Dataproc 版本 1.3 及更高版本创建的 集群中。使用除 2.0 映像以外的 Dataproc 映像版本时,Jupyter 组件需要安装 Anaconda 组件(如果使用 2.0 映像,则无需或无法安装 Anaconda 组件)。

如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Dataproc 版本

gcloud 命令

如需创建包含 Jupyter 组件的 Dataproc 集群,请使用带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。 以下示例将同时安装 Jupyter 和 Anaconda 组件(如果使用 2.0 映像,则无需或无法安装 Anaconda 组件)。

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Jupyter 和 Anaconda 组件指定为 clusters.create 请求的一部分(如果使用 2.0 映像,则无需或无法安装 Anaconda 组件)。

控制台

  1. 启用组件和组件网关。
    • 在 Cloud Console 中,打开 Dataproc 创建集群页面。选中“设置集群”面板。
    • 在组件部分中执行以下操作:
      • 在“可选组件”下,选择要在集群上安装的 Anaconda、Jupyter 和其他可选组件。注意:如果使用 2.0 映像,则无需或无法安装 Anaconda 组件。
      • 在“组件网关”下,选择“启用组件网关”(请参阅查看和访问组件网关网址)。

打开 Jupyter 和 JupyterLab 界面

点击 Cloud Console 组件网关链接,在本地浏览器中打开在集群的主节点上运行的 Jupyter 笔记本或 JupyterLab 界面。

选择“GCS”或“Local Disk”在任一位置创建一个新的 Jupyter 笔记本。

将 GPU 挂接到主节点和/或工作器节点

在使用 Jupyter 笔记本执行以下操作时,您可以向集群的主节点和工作器节点添加 GPU

  1. 在 Spark 中预处理数据,然后将 DataFrame 收集到主实例上并运行 TensorFlow
  2. 使用 Spark 编排 TensorFlow 并行运行
  3. 运行 Tensorflow-on-YARN
  4. 与使用 GPU 的其他机器学习场景搭配使用