Dataproc Hadoop 数据存储

Dataproc 与 Apache Hadoop 和 Hadoop 分布式文件系统 (HDFS) 集成。在为 Dataproc 集群和作业选择计算和数据存储选项时,以下功能和注意事项可能很重要:

  • HDFS 和 Cloud Storage:Dataproc 利用 Hadoop 分布式文件系统 (HDFS) 来存储文件。此外,Dataproc 还会自动安装与 HDFS 兼容的 Cloud Storage 连接器,以便与 HDFS 并行使用 Cloud Storage。您可以通过将数据上传和下载到 HDFS 或 Cloud Storage 的方式移入和移出集群。
  • 虚拟机磁盘:
    • 默认情况下,如果未提供本地 SSD,则 HDFS 数据和中间 Shuffle 会存储在虚拟机启动磁盘(即永久性磁盘)上。
    • 如果您使用本地 SSD,则 HDFS 数据和中间 Shuffle 数据会存储在 SSD 上。
    • 无论是使用 HDFS 还是 Cloud Storage 来存储数据,永久性磁盘 (PD) 大小和类型都会影响性能和虚拟机大小。
    • 集群删除后,虚拟机启动磁盘也会被删除。