Dataproc Hadoop 数据存储

Dataproc 与 Apache Hadoop 和 Hadoop 分布式文件系统 (HDFS) 集成。在为 Dataproc 集群和作业选择计算和数据存储选项时，以下功能和注意事项可能很重要：

HDFS 和 Cloud Storage：Dataproc 利用 Hadoop 分布式文件系统 (HDFS) 来存储文件。此外，Dataproc 还会自动安装与 HDFS 兼容的 Cloud Storage 连接器，以便与 HDFS 并行使用 Cloud Storage。通过将数据上传和下载到 HDFS 或 Cloud Storage，您可将数据移入和移出集群。
虚拟机磁盘：
- 默认情况下，如果未提供本地 SSD，则 HDFS 数据和中间 Shuffle 会存储在虚拟机启动磁盘（即永久性磁盘）上。
- 如果您使用本地 SSD，则 HDFS 数据和中间 Shuffle 数据会存储在 SSD 上。
- 无论您是使用 HDFS 还是 Cloud Storage 来存储数据，永久性磁盘 (PD) 大小和类型都会影响性能和虚拟机大小。
- 集群删除后，虚拟机启动磁盘也会被删除。