Dataproc 概览
访问集群
组件
-
概览
集群组件概览
-
Anaconda 可选组件
在集群上安装 Anaconda 组件。
-
Docker 可选组件
在集群上安装 Docker 组件。
-
Flink 可选组件
在集群上安装 Flink 组件。
-
HBase 可选组件Beta 版
在集群上安装 HBase 组件。
-
Hive WebHCat 可选组件
在集群上安装 Hive WebHCat 组件。
-
Hudi 可选组件
在集群上安装 Hudi 组件。
-
Jupyter 可选组件
在集群上安装 Jupyter 组件。
-
Presto 可选组件
在集群上安装 Presto 组件。
-
Ranger 可选组件
在集群上安装 Ranger 组件。
-
将 Ranger 与 Kerberos 搭配使用
在集群上将 Ranger 组件与 Kerberos 搭配使用。
-
备份和恢复 Ranger 架构
按照相应步骤备份和恢复 Ranger 架构。
-
Solr 可选组件
在集群上安装 Solr 组件。
-
Trino 可选组件
在集群上安装 Trino 组件。
-
Zeppelin 可选组件
在集群上安装 Zeppelin 组件。
-
ZooKeeper 可选组件
在集群上安装 ZooKeeper 组件。
计算选项
配置及运行作业
-
作业生命周期
了解 Dataproc 作业限制。
-
排查作业延迟问题
了解并避免导致作业延迟的常见原因。
-
Persistent History Server
了解 Dataproc 的 Persistent History Server。
-
可重启的作业
创建在失败时重新启动的作业。非常适合长时间运行和流式传输作业。
-
在 Dataproc on GKE 上运行 Spark 作业
创建 Dataproc on GKE 虚拟集群,然后在虚拟集群上运行 Spark 作业。
-
使用 Docker on YARN 自定义 Spark 作业运行时环境
使用 Docker 映像自定义 Spark 作业环境。
-
使用 DataprocFileOutputCommitter 运行 Spark 作业
使用 Dataproc 的增强型可配置开源
FileOutputCommitter
版本运行 Spark 作业。
配置集群
-
自动扩缩集群
了解如何使用自动扩缩功能自动调整集群大小,以满足用户工作负载的需求。
-
自动选择可用区
让 Dataproc 为您的集群选择一个地区。
-
集群缓存
使用集群缓存以提高性能。
-
集群元数据
了解 Dataproc 的集群元数据以及如何设置您自己的自定义元数据。
-
集群属性
Dataproc 的开源组件的配置属性以及如何访问它们。
-
增强的灵活模式
通过更改中间数据的保存位置来保持作业运行。
-
高可用性模式
增加 HDFS 和 YARN 在服务不可用时的恢复能力
-
初始化操作
指定安装时在所有或某些集群节点上运行的操作。
-
网络配置
配置您的集群的网络。
-
扩缩集群
即使在作业运行时,您也可以增加或减少集群中的工作器节点数。
-
计划删除
在指定时间段之后或在指定时间删除集群。
-
安全配置
启用集群安全功能。
-
机密计算
创建具有机密虚拟机的集群。
-
客户管理的加密密钥 (CMEK)
管理 Dataproc 集群和作业数据的加密密钥。
-
Ranger Cloud Storage 插件
将 Ranger Cloud Storage 插件与 Dataproc 搭配使用。
-
Dataproc 服务帐号
了解 Dataproc 服务帐号。
-
单节点集群
创建仅具有一个节点的轻量级沙盒集群。
-
单租户节点集群
在单租户节点上创建集群。
-
暂存存储分区和临时存储分区
了解 Dataproc 暂存存储分区和临时存储分区。