Dataproc 可选 Jupyter 组件

创建 Dataproc 时,您可以安装 Jupyter 等其他组件 使用 可选组件 功能。本页面介绍了 Jupyter 组件。

Jupyter 组件是一个基于网页的单用户笔记本,用于交互式数据分析,并且支持 JupyterLab 网页界面。您可以通过集群的第一个主节点上的 8123 端口访问 Jupyter 网页界面。

为多位用户启动笔记本。您可以创建启用了 Dataproc 的 Vertex AI Workbench 实例,也可以在虚拟机上安装 Dataproc JupyterLab 插件,以向多个用户提供笔记本。

配置 Jupyter。您可以通过提供 dataproc:jupyter 集群属性来配置 Jupyter。降低通过不安全的笔记本服务器远程执行代码的风险 API,默认的 dataproc:jupyter.listen.all.interfaces 集群属性 设置为 false,这会将以下情况限制为 localhost (127.0.0.1)组件网关是 (安装 Jupyter 组件时需要激活组件网关)。

Jupyter 笔记本提供了一个运行 Spark 代码的 Python 内核,以及 PySpark 内核。默认情况下,笔记本保存在 Cloud Storage 的 Dataproc 暂存存储分区中,该存储分区由用户指定或在创建集群时自动创建。在创建集群时,您可以使用 dataproc:jupyter.notebook.gcs.dir 集群属性。

使用数据文件。您可以使用 Jupyter 笔记本处理已上传到 Cloud Storage 上的数据文件。由于使用 Cloud Storage 连接器 已预安装在 Dataproc 集群上,那么您可以参考 文件。以下是一个从 Google Analytics Cloud Storage:

df = spark.read.csv("gs://bucket/path/file.csv")
df.show()

如需查看 PySpark 示例,请参阅通用加载和保存函数

安装 Jupyter

在创建 Dataproc 集群时安装组件。 Jupyter 组件需要激活 Dataproc 组件网关

控制台

  1. 启用组件。
    • 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。选中设置集群面板。
    • 组件部分中执行以下操作:

gcloud CLI

如需创建包含 Jupyter 组件的 Dataproc 集群,请执行以下操作: 使用 带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。

最新默认图片版本示例

以下示例将 Jupyter 组件。

gcloud dataproc clusters create cluster-name \
    --optional-components=JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Jupyter 组件作为 clusters.create 请求的一部分进行安装。

打开 Jupyter 和 JupyterLab 界面

点击 Google Cloud 控制台组件网关链接,在本地浏览器中打开在集群主节点上运行的 Jupyter 笔记本或 JupyterLab 界面。

选择“GCS”或“Local Disk”在任一位置创建一个新的 Jupyter 笔记本。

将 GPU 挂接到主节点和工作器节点

在使用 Jupyter 笔记本执行以下操作时,您可以向集群的主节点和工作器节点添加 GPU

  1. 在 Spark 中预处理数据,然后收集 DataFrame 复制到主实例上并运行 TensorFlow
  2. 使用 Spark 编排 TensorFlow 并行运行
  3. 运行 Tensorflow-on-YARN
  4. 与使用 GPU 的其他机器学习场景搭配使用