Dataproc 集群包含以下类型的组件:
已安装的组件:已安装在映像中并在创建集群时激活的组件。
可选组件:您在创建集群时选择要在集群上安装和使用的组件。Dataproc 会根据集群映像版本安装并激活可选组件,具体如下:
2.2
及更早版本的映像版本:系统会自动安装可选组件。在创建集群时,系统会激活所选的可选组件,并卸载未选的可选组件。2.3
及更高版本的映像版本:在创建集群期间安装所有可选组件,但 Jupyter、Iceberg 和 Delta Lake 可选组件除外,这些组件已预安装在2.3
及更高版本的映像版本中。如果2.3
或更高版本映像集群在创建时未启用预安装的可选组件,则这些组件会从集群中移除。如需了解详情,请参阅 Dataproc 2.3.x 发布版本。
初始化操作组件:作为您在创建集群时指定的初始化操作的一部分安装在集群上的组件。
可选组件会在集群上运行初始化操作之前安装在集群上。
Dataproc 映像版本页面列出了最新 Dataproc 映像版本中提供的组件和组件类型。
与用于安装组件的初始化操作相比,可选组件具有以下优势:
- 可选组件经过测试,可与特定的 Dataproc 版本兼容。
- 可选组件通过集群创建参数启用;初始化操作需要脚本。
可用的可选组件
可选组件 | Google Cloud CLI 命令和 API 请求中的 组件名称 |
映像版本 | 发布阶段 |
---|---|---|---|
Delta Lake | DELTA | 2.2.46 及更高版本 | GA |
Docker | DOCKER | 1.5 及更高版本 | GA |
Flink | FLINK | 1.5 及更高版本 | GA |
HBase | HBASE | 1.5 及更高版本 (在 2.1 及更高版本中不可用) |
已弃用 |
Hive WebHCat | HIVE_WEBHCAT | 1.3 及更高版本 | GA |
Hudi | HUDI | 1.5 及更高版本 | GA |
Iceberg | ICEBERG | 2.2 及更高版本 | GA |
Jupyter 笔记本 | JUPYTER | 1.3 及更高版本 | GA |
猪 | PIG | 1.5* 及更高版本 | GA |
Presto | PRESTO | 1.3 及更高版本 (在 2.1 及更高版本中不可用) |
GA |
Ranger | RANGER | 1.3 及更高版本 | GA |
Solr | SOLR | 1.3 及更高版本 | GA |
Trino | TRINO | 2.1 及更高版本 | GA |
Zeppelin 笔记本 | ZEPPELIN | 1.3 及更高版本 | GA |
ZooKeeper | ZOOKEEPER | 1.0 及更高版本 | GA |
注意:
- 在映像版本 2.3 及更高版本中,Apache Pig 是可选组件。它已预安装在
2.2
及更早版本的映像中。
添加可选组件
控制台
- 在 Google Cloud 控制台中,前往 Dataproc 创建集群页面。
设置集群面板已处于选中状态。
- 在组件部分的可选组件下,选择一个或多个要安装在集群上的组件。
Google Cloud CLI
要创建 Dataproc 集群并在集群上安装一个或多个可选组件,请使用 gcloud beta dataproc clusters create cluster-name
命令和 --optional-components
标志。
gcloud dataproc clusters create CLUSTER_NAME \ --optional-components=COMPONENT-NAME(s) \ ... other flags
REST API
可通过 Dataproc API 在 clusters.create 请求中使用 SoftwareConfig.Component 来指定可选组件。