Dataproc 概览
访问集群
组件
-
概览
集群组件概览
-
Anaconda 可选组件
在集群上安装 Anaconda 组件。
-
Docker 可选组件
在集群上安装 Docker 组件。
-
Flink 可选组件
在集群上安装 Flink 组件。
-
HBase 可选组件Beta 版
在集群上安装 HBase 组件。
-
Hive WebHCat 可选组件
在集群上安装 Hive WebHCat 组件。
-
Hudi 可选组件
在集群上安装 Hudi 组件。
-
Jupyter 可选组件
在集群上安装 Jupyter 组件。
-
Presto 可选组件
在集群上安装 Presto 组件。
-
Ranger 可选组件
在集群上安装 Ranger 组件。
-
将 Ranger 与 Kerberos 搭配使用
在集群上将 Ranger 组件与 Kerberos 搭配使用。
-
备份和恢复 Ranger 架构
按照步骤备份和恢复 Ranger 架构。
-
Solr 可选组件
在集群上安装 Solr 组件。
-
Trino 可选组件
在集群上安装 Trino 组件。
-
Zeppelin 可选组件
在集群上安装 Zeppelin 组件。
-
ZooKeeper 可选组件
在集群上安装 ZooKeeper 组件。
计算选项
配置及运行作业
-
作业生命周期
了解 Dataproc 作业限制。
-
排查作业延迟问题
了解并避免作业延迟的常见原因。
-
Persistent History Server
了解 Dataproc 的 Persistent History Server。
-
可重启的作业
创建在失败时重新启动的作业。非常适合长时间运行和流式传输作业。
-
在 Dataproc on GKE 上运行 Spark 作业
创建 Dataproc on GKE 虚拟集群,然后在虚拟集群上运行 Spark 作业。
-
在 YARN 上使用 Docker 自定义 Spark 作业运行时环境
使用 Docker 映像自定义 Spark 作业环境。
-
使用 DataprocFileOutputCommitter 运行 Spark 作业
使用 Dataproc 增强的可配置开源
FileOutputCommitter
版本运行 Spark 作业。
配置集群
-
自动扩缩集群
了解如何使用自动扩缩功能自动调整集群大小,以满足用户工作负载的需求。
-
自动选择可用区
让 Dataproc 为您的集群选择一个地区。
-
集群缓存
使用集群缓存提高性能。
-
集群元数据
了解 Dataproc 的集群元数据以及如何设置您自己的自定义元数据。
-
集群属性
对 Dataproc 开源组件使用配置属性。
-
集群轮替
轮替属于集群池的集群。
-
增强的灵活模式
通过更改中间数据的保存位置来保持作业运行。
-
灵活的虚拟机
指定在请求的虚拟机不可用时您可以在集群中使用的虚拟机类型。
-
高可用性模式
增加 HDFS 和 YARN 在服务不可用时的恢复能力
-
初始化操作
指定安装时在所有或某些集群节点上运行的操作。
-
网络配置
配置您的集群的网络。
-
扩缩集群
即使在作业运行时,您也可以增加或减少集群中的工作器节点数。
-
计划删除
在指定时间段之后或在指定时间删除集群。
-
安全配置
启用集群安全功能。
-
机密计算
创建具有机密虚拟机的集群。
-
客户管理的加密密钥 (CMEK)
管理 Dataproc 集群和作业数据的加密密钥。
-
Ranger Cloud Storage 插件
将 Ranger Cloud Storage 插件与 Dataproc 搭配使用)。
-
Dataproc 服务账号
了解 Dataproc 服务账号。
-
单节点集群
创建仅具有一个节点的轻量级沙盒集群。
-
单租户节点集群
在单租户节点上创建集群。
-
暂存存储分区和临时存储分区
了解 Dataproc 暂存存储分区和临时存储分区。
连接器
-
BigQuery 连接器
在您的 Dataproc 集群上使用适用于 Apache Hadoop 的 BigQuery。
-
BigQuery 连接器代码示例
查看 BigQuery 代码示例。
-
Bigtable 与 Dataproc
将与 Bigtable Apache HBase 兼容的 API 用于您的 Dataproc 集群。
-
Cloud Storage 连接器
使用 Cloud Storage 连接器。
-
Hive BigQuery 连接器
了解 Hive BigQuery 连接器。
-
Pub/Sub Lite 和 Dataproc
将 Pub/Sub Lite 与 Dataproc 搭配使用。