创建 Dataproc 时,您可以安装 Jupyter 等其他组件 使用 可选组件 功能。本页面介绍了 Jupyter 组件。
Jupyter 组件
是一种基于 Web 的单用户笔记本,用于交互式数据分析,并支持
JupyterLab
网页界面。您可以通过集群的第一个主节点上的 8123
端口访问 Jupyter 网页界面。
为多个用户启动笔记本。您可以创建已启用 Dataproc 的 Vertex AI Workbench 实例 或安装 Dataproc JupyterLab 插件 以便为多个用户提供笔记本。
配置 Jupyter。可以通过提供 dataproc:jupyter
来配置 Jupyter
集群属性。
降低通过不安全的笔记本服务器远程执行代码的风险
API,默认的 dataproc:jupyter.listen.all.interfaces
集群属性
设置为 false
,当发生以下情况时,系统就会将连接限制为 localhost (127.0.0.1)
组件网关是
(安装 Jupyter 组件时需要激活组件网关)。
Jupyter 笔记本提供了一个用于运行 Spark 代码的 Python 内核,以及
PySpark 内核。默认情况下,笔记本会保存在 Cloud Storage 中
在 Dataproc 暂存存储桶中,该存储桶由用户或
自动创建
集群访问权限在创建集群时,您可以使用
dataproc:jupyter.notebook.gcs.dir
集群属性。
使用数据文件。您可以使用 Jupyter 笔记本来处理 上传到 Cloud Storage。 由于使用 Cloud Storage 连接器 已预安装在 Dataproc 集群上,那么您可以参考 文件。下面是一个在 Cloud Storage:
df = spark.read.csv("gs://bucket/path/file.csv") df.show()
请参阅 通用加载和保存函数 。
安装 Jupyter
在创建 Dataproc 集群时安装组件。 Jupyter 组件需要激活 Dataproc 组件网关。
控制台
- 启用组件。
- 在 Google Cloud 控制台中,打开 Dataproc 创建集群 页面。已选择设置集群面板。
- 在组件部分中执行以下操作:
- 在可选组件下,选择 Jupyter 组件。
- 在组件网关下,选择 启用组件网关 (请参阅 查看和访问组件网关网址)。
gcloud CLI
如需创建包含 Jupyter 组件的 Dataproc 集群,请执行以下操作:
使用
带有 --optional-components
标志的 gcloud dataproc clusters create cluster-name 命令。
最新默认映像版本示例
以下示例将 Jupyter 组件。
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
REST API
Jupyter 组件
使用 Dataproc API
SoftwareConfig.Component
作为
clusters.create
请求。
- 设置 EndpointConfig.enableHttpPortAccess
属性(作为
clusters.create
的一部分)设置为true
请求允许使用 组件网关。
打开 Jupyter 和 JupyterLab 界面
点击 Google Cloud 控制台组件网关链接 在本地浏览器中打开 Jupyter 笔记本或 JupyterLab 界面, 集群主服务器节点
选择“GCS”或“Local Disk”在任一位置创建一个新的 Jupyter 笔记本。
将 GPU 挂接到主节点和工作器节点
在使用 Jupyter 笔记本执行以下操作时,您可以向集群的主节点和工作器节点添加 GPU:
- 在 Spark 中预处理数据,然后收集 DataFrame 复制到主实例上并运行 TensorFlow
- 使用 Spark 编排 TensorFlow 并行运行
- 运行 Tensorflow-on-YARN
- 与使用 GPU 的其他机器学习场景搭配使用