使用可选组件功能创建 Dataproc 集群时,您可以安装其他组件,例如 Jupyter。本页面介绍了 Jupyter 组件。
Jupyter 组件是一个基于网页的笔记本,用于交互式数据分析,并且支持 JupyterLab 网页界面。您可以通过集群的第一个主节点上的 8123
端口访问 Jupyter 网页界面。
Jupyter 笔记本提供了一个运行 Spark 代码的 Python 内核和一个 PySpark 内核。默认情况下,笔记本保存在 Cloud Storage 的 Dataproc 暂存存储桶中,该存储桶由用户指定或在创建集群时自动创建。您可以通过 dataproc:jupyter.notebook.gcs.dir
集群属性在创建集群时更改位置。
安装 Jupyter
在创建 Dataproc 集群时安装组件。 Jupyter 组件需要激活 Dataproc 组件网关。使用映像版本 1.5 时,安装 Jupyter 组件还需要安装 Anaconda 组件。
控制台
- 启用组件。
- 在 Google Cloud 控制台中,打开 Dataproc 创建集群页面。选择设置集群面板。
- 在组件部分中执行以下操作:
- 在可选组件下,选择 Jupyter 组件;如果使用映像版本 1.5,则选择 Anaconda 组件。
- 在组件网关下,选择启用组件网关(请参阅查看和访问组件网关网址)。
gcloud CLI
如需创建包含 Jupyter 组件的 Dataproc 集群,请使用带有 --optional-components
标志的 gcloud gclid clusters create cluster-name 命令。
最新默认映像版本示例
以下示例在使用最新默认映像版本的集群上安装了 Jupyter 组件。
gcloud dataproc clusters create cluster-name \ --optional-components=JUPYTER \ --region=region \ --enable-component-gateway \ ... other flags
1.5 映像版本示例
以下 1.5 映像版本示例同时安装 Jupyter 和 Anaconda 组件(使用映像 1.5 版时需要安装 Anaconda 组件)。
gcloud dataproc clusters create cluster-name \ --optional-components=ANACONDA,JUPYTER \ --region=region \ --image-version=1.5 \ --enable-component-gateway \ ... other flags
REST API
在 clusters.create
请求中,可以使用 SoftwareConfig.Component
通过 Dataproc API 安装 Jupyter 组件;在使用映像版本 1.5 时,还需要安装 Anaconda 组件。
- 在
clusters.create
请求中,将 EndpointConfig.enableHttpPortAccess 属性设置为true
,即可使用组件网关连接到 Jupyter 笔记本网页界面。
打开 Jupyter 和 JupyterLab 界面
点击 Google Cloud 控制台组件网关链接,在本地浏览器中打开集群主服务器节点上运行的 Jupyter 笔记本或 JupyterLab 界面。
选择“GCS”或“Local Disk”在任一位置创建一个新的 Jupyter 笔记本。
将 GPU 挂接到主节点和/或工作器节点
在使用 Jupyter 笔记本执行以下操作时,您可以向集群的主节点和工作器节点添加 GPU:
- 在 Spark 中预处理数据,然后将 DataFrame 收集到主实例上并运行 TensorFlow
- 使用 Spark 编排 TensorFlow 并行运行
- 运行 Tensorflow-on-YARN
- 与使用 GPU 的其他机器学习场景搭配使用