Dataproc 可选 Jupyter 组件

使用可选组件功能创建 Dataproc 集群时，您可以安装其他组件，例如 Jupyter。本页面介绍了 Jupyter 组件。

Jupyter 组件是一个基于网页的笔记本，用于交互式数据分析，并且支持 JupyterLab 网页界面。您可以通过集群的第一个主节点上的 8123 端口访问 Jupyter 网页界面。

Jupyter 笔记本提供了一个运行 Spark 代码的 Python 内核和一个 PySpark 内核。默认情况下，笔记本保存在 Cloud Storage 的 Dataproc 暂存存储桶中，该存储桶由用户指定或在创建集群时自动创建。您可以通过 dataproc:jupyter.notebook.gcs.dir 集群属性在创建集群时更改位置。

使用数据文件。使用 Jupyter 笔记本可以轻松处理已上传到 Cloud Storage 上的数据文件。由于 Cloud Storage 连接器已预安装在 Dataproc 集群上，因此您可以直接在笔记本中引用这些文件。以下示例演示了如何访问 Cloud Storage 中的 CSV 文件（如需了解更多 PySpark 数据加载/保存示例，请参阅通用加载/保存函数）：

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

安装 Jupyter

在创建 Dataproc 集群时安装组件。 Jupyter 组件需要激活 Dataproc 组件网关。使用映像版本 1.5 时，安装 Jupyter 组件还需要安装 Anaconda 组件。

控制台

启用组件。
- 在 Google Cloud 控制台中，打开 Dataproc 的创建集群页面。已选择设置集群面板。
- 在组件部分中执行以下操作：
  - 在可选组件下，选择 Jupyter 组件；如果您使用的是映像版本 1.5，则选择 Anaconda 组件。
  - 在组件网关下，选择启用组件网关（请参阅查看和访问组件网关网址）。

gcloud CLI

如需创建包含 Jupyter 组件的 Dataproc 集群，请使用带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。

最新默认映像版本示例

以下示例会在使用最新默认映像版本的集群上安装 Jupyter 组件。

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

1.5 映像版本示例

以下 1.5 映像版本示例会同时安装 Jupyter 和 Anaconda 组件（使用映像 1.5 版时，必须安装 Anaconda 组件）。

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --image-version=1.5 \
    --enable-component-gateway \
    ... other flags

REST API

可以使用 SoftwareConfig.Component 作为 clusters.create 请求的一部分通过 Dataproc API 安装 Jupyter 组件（使用映像 1.5 版时，也需要安装 Anaconda 组件）。

将 EndpointConfig.enableHttpPortAccess 属性设置为 true（作为 clusters.create 请求的一部分），就可以使用组件网关连接到 Jupyter 笔记本网页界面。

打开 Jupyter 和 JupyterLab 界面

点击 Google Cloud 控制台组件网关链接，在本地浏览器中打开集群主服务器节点上运行的 Jupyter 笔记本或 JupyterLab 界面。

选择“GCS”或“Local Disk”在任一位置创建一个新的 Jupyter 笔记本。

将 GPU 挂接到主节点和/或工作器节点

在使用 Jupyter 笔记本执行以下操作时，您可以向集群的主节点和工作器节点添加 GPU：

在 Spark 中预处理数据，然后将 DataFrame 收集到主实例上并运行 TensorFlow
使用 Spark 编排 TensorFlow 并行运行
运行 Tensorflow-on-YARN
与使用 GPU 的其他机器学习场景搭配使用