Dataproc Hadoop 資料儲存空間

Dataproc 與 Apache Hadoop 和 Hadoop 分散式檔案系統 (HDFS) 整合。為 Dataproc 叢集和作業選取運算和資料儲存選項時,下列功能和考量事項可能十分重要:

  • 搭配使用 HDFS 和 Cloud Storage: Dataproc 使用 Hadoop 分散式檔案系統 (HDFS) 進行儲存作業。此外,Dataproc 會自動安裝與 HDFS 相容的 Cloud Storage 連接器,讓 Cloud Storage 能夠與 HDFS 並行使用。您可以透過 HDFS 或 Cloud Storage 的資料上傳/下載作業,將資料移入或移出叢集。
  • VM 磁碟:
    • 根據預設,如果沒有提供本機 SSD,HDFS 資料和中繼隨機資料會儲存在 VM 開機磁碟 (即永久磁碟) 中。
    • 如果您使用本機 SSD,HDFS 資料和中繼重組資料會儲存在 SSD 上。
    • 無論是使用 HDFS 或 Cloud Storage 儲存資料,永久磁碟 (PD) 大小和類型都會影響效能和 VM 大小。
    • 刪除叢集時,系統會一併刪除 VM 開機磁碟。