Penyimpanan data Hadoop Dataproc

Dataproc terintegrasi dengan Apache Hadoop dan Hadoop Distributed File System (HDFS). Fitur dan pertimbangan berikut dapat menjadi penting saat memilih opsi komputasi dan penyimpanan data untuk cluster dan tugas Dataproc:

  • HDFS dengan Cloud Storage: Dataproc menggunakan Hadoop Distributed File System (HDFS) untuk penyimpanan. Selain itu, Dataproc akan otomatis menginstal konektor Cloud Storage yang kompatibel dengan HDFS, sehingga memungkinkan penggunaan Cloud Storage secara paralel dengan HDFS. Data dapat dipindahkan ke dalam dan ke luar cluster melalui upload dan download ke HDFS atau Cloud Storage.
  • Disk VM:
    • Secara default, jika tidak ada SSD lokal yang disediakan, data HDFS dan data acak menengah akan disimpan di boot disk VM, yang merupakan Persistent Disk.
    • Jika Anda menggunakan SSD lokal, data HDFS dan data acak menengah akan disimpan di SSD.
    • Ukuran dan jenis persistent disk (PD) memengaruhi performa dan ukuran VM, baik menggunakan HDFS maupun Cloud Storage untuk penyimpanan data.
    • Booting disk VM akan dihapus saat cluster dihapus.