Dataproc Hadoop 数据存储
使用集合让一切井井有条
根据您的偏好保存内容并对其进行分类。
Dataproc 与 Apache Hadoop 和 Hadoop 分布式文件系统 (HDFS) 集成。在为 Dataproc 集群和作业选择计算和数据存储选项时,以下功能和注意事项可能很重要:
- HDFS 和 Cloud Storage:Dataproc 利用 Hadoop 分布式文件系统 (HDFS) 来存储文件。此外,Dataproc 还会自动安装与 HDFS 兼容的 Cloud Storage 连接器,以便与 HDFS 并行使用 Cloud Storage。通过将数据上传和下载到 HDFS 或 Cloud Storage,您可将数据移入或移出集群。
- 虚拟机磁盘:
- 默认情况下,如果未提供本地 SSD,则 HDFS 数据和中间 Shuffle 会存储在虚拟机启动磁盘(即永久性磁盘)上。
- 如果您使用本地 SSD,则 HDFS 数据和中间 Shuffle 数据会存储在 SSD 上。
- 无论您是使用 HDFS 还是 Cloud Storage 来存储数据,永久性磁盘 (PD) 大小和类型都会影响性能和虚拟机大小。
- 集群删除后,虚拟机启动磁盘也会被删除。
如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
最后更新时间 (UTC):2025-02-01。
[[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-02-01。"],[],[]]