Dataproc 可靠性指南
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
Last reviewed 2023-07-20 UTC
Dataproc 是一项可扩缩的全代管式服务,用于运行 Apache Hadoop 和 Spark 作业。您可以 Dataproc 根据需要自定义和扩缩虚拟机。Dataproc 与 Cloud Storage、BigQuery、Bigtable 和其他 Google Cloud 服务紧密集成。
最佳实践
- Dataproc 高可用性模式 - 在实例名称、Apache ZooKeeper、Hadoop Distributed File System (HDFS) 和 Yet Another Resource Negotiator (YARN) 等各项上比较 Hadoop 高可用性 (HA) 模式和默认的非 HA 模式。以及,如何创建高可用性集群。
- 自动扩缩集群 - 何时使用 Dataproc 自动扩缩、如何创建自动扩缩政策、多集群政策用法、自动扩缩配置的可靠性最佳实践以及指标和日志。
- Dataproc 增强的灵活性模式 (EFM) - 使用增强的灵活性模式最大限度地减少作业进度延迟的示例、分区和并行等高级配置以及 EFM 集群上的 YARN 安全停用。
- 安全停用 - 使用安全停用功能以最大限度地减少从集群中移除工作器的影响,如何将此功能与辅助工作器搭配使用,以及安全停用的命令示例。
- 可重启的作业 - 使用可选设置,您可以将作业设置为在失败时重启,以缓解常见的作业失败类型(包括内存不足问题和 Compute Engine 虚拟机意外重新启动)。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2023-07-20。
[{
"type": "thumb-down",
"id": "hardToUnderstand",
"label":"Hard to understand"
},{
"type": "thumb-down",
"id": "incorrectInformationOrSampleCode",
"label":"Incorrect information or sample code"
},{
"type": "thumb-down",
"id": "missingTheInformationSamplesINeed",
"label":"Missing the information/samples I need"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"翻译问题"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"其他"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"易于理解"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"解决了我的问题"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"其他"
}]