Dataproc Zeppelin 组件

使用可选组件功能创建 Dataproc 集群时,可以安装其他组件。本页面介绍了 Zeppelin 组件。

Zeppelin 笔记本组件是一个基于网页的笔记本,用于交互式数据分析。您可以通过集群的第一个主节点上的 8080 端口访问 Zeppelin Web 界面。

默认情况下,笔记本保存在 Cloud Storage 的 Dataproc 暂存存储分区中,该存储分区由用户指定或在创建集群时自动创建。您可以在创建集群时通过 zeppelin:zeppelin.notebook.gcs.dir 属性更改该位置。

安装组件

在创建 Dataproc 集群时安装组件。 组件可添加到使用 Dataproc 版本 1.3 及更高版本创建的 集群中。

如需查看每个 Dataproc 映像版本中包含的组件版本,请参阅支持的 Cloud Dataproc 版本

gcloud 命令

如需创建包含 Zeppelin 组件的 Dataproc 集群,请使用带有 --optional-components 标志的 gcloud dataproc clusters create cluster-name 命令。

gcloud dataproc clusters create cluster-name \
    --optional-components=ZEPPELIN \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将 Zeppelin 组件指定为 clusters.create 请求的一部分。

控制台

  1. 启用组件。
    • 在 Cloud Console 中,打开 Dataproc 创建集群页面。点击页面底部的“高级选项”以查看“可选组件”部分。

    • 点击“选择组件”以打开可选组件选择面板。选择“Zeppelin Notebook”以及其他一些要在集群上安装的可选组件。

  2. 启用组件网关(需要映像版本 1.3.29 或更高版本),以便从 Google Cloud Console 轻松访问 Zeppelin 笔记本和其他组件 Web 界面(请参阅查看和访问组件网关网址)。
    • 勾选“创建集群”表单上的“组件网关”复选框。

打开 Zeppelin 笔记本

请参阅查看和访问组件网关网址,点击 Cloud Console 上的“组件网关”链接以在本地浏览器的集群主节点上打开 Zeppelin 笔记本界面。