Dataproc 组件

创建集群时,标准 Apache Hadoop 生态系统组件会自动安装在集群中(请参阅 Dataproc 版本列表)。 创建集群时,您可以在该集群上安装其他组件,称为“可选组件”。向集群添加可选组件类似于通过使用初始化操作添加组件,但具有以下优势:

  • 缩短了集群启动时间
  • 经测试,可以与特定的 Dataproc 版本兼容
  • 使用集群参数,而不是初始化操作脚本
  • 可选组件与其他 Dataproc 组件集成在一起。 例如,当集群安装了 Anaconda 和 Zeppelin 时,Zeppelin 将使用 Anaconda 的 Python 解释器和库。

可用的可选组件

可选组件 gcloud 命令和 API 请求中的
COMPONENT_NAME
映像版本 发布阶段
Anaconda ANACONDA 1.3 及更高版本
(在 2.0 及更高版本中不可用)
GA
Docker DOCKER 1.5 及更高版本 GA
Flink FLINK 1.5 及更高版本 GA
HBase HBASE 1.5 及更高版本
(在 2.1 及更高版本中不可用)
Beta 版
Hive WebHCat HIVE_WEBHCAT 1.3 及更高版本 GA
Hudi Hudi 1.5 及更高版本 GA
Jupyter 笔记本 JUPYTER 1.3 及更高版本 GA
Presto PRESTO 1.3 及更高版本
(不适用于 2.1 及更高版本)
GA
Ranger RANGER 1.3 及更高版本 GA
Solr SOLR 1.3 及更高版本 GA
Trino 特里诺 2.1 及更高版本 GA
Zeppelin 笔记本 ZEPPELIN 1.3 及更高版本 GA
ZooKeeper ZOOKEEPER 1.0 及更高版本 GA

添加可选组件

gcloud 命令

要创建 Dataproc 集群并在集群上安装一个或多个可选组件,请使用 gcloud beta dataproc clusters create cluster-name 命令和 --optional-components 标志。

gcloud dataproc clusters create cluster-name \
  --optional-components=COMPONENT-NAME(s) \
  ... other flags

REST API

可以通过 Dataproc API 使用 SoftwareConfig.Component 将可选组件指定为 clusters.create 请求的一部分。

控制台

在 Google Cloud 控制台中,打开 Dataproc 的创建集群页面。选中“设置集群”面板。在“组件”部分的“可选组件”下,选择一个或多个要在集群上安装的组件。