Dataproc 可选 Jupyter 组件

使用集合让一切井井有条 根据您的偏好保存内容并对其进行分类。

使用可选组件功能创建 Dataproc 集群时,您可以安装 Jupyter 等其他组件。本页面介绍了 Jupyter 组件。

Jupyter 组件是一个基于网页的笔记本,用于交互式数据分析,并且支持 JupyterLab 网页界面。您可以通过集群的第一个主节点上的 8123 端口访问 Jupyter 网页界面。

Jupyter 笔记本提供了一个运行 Spark 代码的 Python 内核和一个 PySpark 内核。默认情况下,笔记本保存在 Cloud Storage 的 Dataproc 暂存存储桶中,该存储桶由用户指定或在创建集群时自动创建。您可以通过 dataproc:jupyter.notebook.gcs.dir 集群属性在创建集群时更改此位置。

安装 Jupyter

在创建 Dataproc 集群时安装组件。 Jupyter 组件需要激活 Dataproc 组件网关。使用映像 1.5 版本时,安装 Jupyter 组件还需要安装 Anaconda 组件。

控制台

  1. 启用组件。
    • 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。已选择设置集群面板。
    • 组件部分中执行以下操作:
      • 可选组件下,选择 Jupyter 组件;如果使用的是版本 1.5,则选择 Anaconda 组件。
      • 组件网关下,选择启用组件网关(请参阅查看和访问组件网关网址)。

gcloud CLI

如需创建包含 Jupyter 组件的 Dataproc 集群,请使用带有 --optional-components 标志的 gcloud pubsub clusters create cluster-name 命令。

最新的默认映像版本示例

以下示例在使用最新默认映像版本的集群上安装 Jupyter 组件。

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

1.5 映像版本示例

以下 1.5 映像版本示例同时安装 Jupyter 和 Anaconda 组件(使用 1.5 版本的映像时需要安装 Anaconda 组件)。

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --image-version=1.5 \
    --enable-component-gateway \
    ... other flags

REST API

您可以在 clusters.create 请求中使用 SoftwareConfig.Component 通过 Dataproc API 安装 Jupyter 组件(使用 1.5 版映像时也需要安装 Anaconda 组件)。

打开 Jupyter 和 JupyterLab 界面

点击 Google Cloud 控制台组件网关链接,在本地浏览器中打开集群主节点上运行的 Jupyter 笔记本或 JupyterLab 界面。

选择“GCS”或“Local Disk”在任一位置创建一个新的 Jupyter 笔记本。

将 GPU 挂接到主节点和/或工作器节点

在使用 Jupyter 笔记本执行以下操作时,您可以向集群的主节点和工作器节点添加 GPU

  1. 在 Spark 中预处理数据,然后将 DataFrame 收集到主实例上并运行 TensorFlow
  2. 使用 Spark 编排 TensorFlow 并行运行
  3. 运行 Tensorflow-on-YARN
  4. 与使用 GPU 的其他机器学习场景搭配使用