Opsi penyimpanan untuk data Cloud TPU
Dokumen ini menjelaskan opsi penyimpanan data yang dapat digunakan saat melatih model di Cloud TPU.
Pengantar
Cloud TPU memerlukan penyimpanan data untuk:
- download dan prapemrosesan set data
- pemrosesan pipeline input host
- input pelatihan model
- output pelatihan model
Ada lima opsi penyimpanan untuk data aplikasi Cloud TPU dan set data pelatihan:
- Disk booting untuk VM TPU
- Persistent disk yang terpasang ke VM TPU
- Bucket Cloud Storage
- Berbagi file Filestore di VM Compute Engine
Untuk mengetahui detail biaya dan performa penyimpanan, lihat Opsi penyimpanan.
Boot disk untuk VM TPU
Secara default, setiap VM Cloud TPU memiliki persistent disk booting tunggal 100 GB yang berisi sistem operasi. Disk booting juga dapat digunakan untuk menyimpan set data yang didownload untuk prapemrosesan serta data input dan output model, asalkan jumlah totalnya tidak melebihi ruang yang tersedia di disk booting.
Jika aplikasi pelatihan Anda memerlukan ruang penyimpanan tambahan di luar disk booting default, Anda dapat menambahkan satu atau beberapa persistent disk ke instance VM atau VM TPU. Ada prosedur yang berbeda untuk menambahkan persistent disk ke VM Compute Engine atau ke VM TPU.
Persistent disk yang terpasang ke VM TPU
Persistent disk adalah perangkat penyimpanan jaringan yang tahan lama dan dapat diakses instance VM Anda seperti disk fisik di desktop atau server. Data pada setiap persistent disk didistribusikan ke beberapa disk fisik. Compute Engine mengelola disk fisik dan distribusi data untuk Anda guna memastikan redundansi dan performa yang optimal.
Persistent disk dibuat secara terpisah dari instance virtual machine (VM) Anda, sehingga Anda dapat menyimpan data meskipun setelah menghapus instance VM. Performa persistent disk diskalakan secara otomatis mengikuti ukuran, sehingga Anda dapat mengubah ukuran persistent disk yang ada atau menambahkan lebih banyak persistent disk ke instance untuk memenuhi persyaratan performa dan ruang penyimpanan Anda.
Persistent disk memiliki redundansi bawaan untuk melindungi data Anda dari kegagalan peralatan dan untuk memastikan ketersediaan data melalui peristiwa pemeliharaan pusat data. Checksum dihitung untuk semua operasi persistent disk, sehingga kami dapat memastikan bahwa yang Anda baca adalah apa yang Anda tulis.
Selain itu, Anda dapat membuat snapshot persistent disk untuk melindungi data dari kehilangan data karena error pengguna. Snapshot bersifat inkremental, dan pembuatannya hanya memerlukan waktu beberapa menit meskipun Anda mengambil snapshot dari disk yang terpasang pada instance yang sedang berjalan.
Untuk informasi selengkapnya tentang penggunaan persistent disk dengan VM TPU, lihat Menambahkan persistent disk ke VM TPU.
Bucket Cloud Storage
Bucket Cloud Storage adalah opsi penyimpanan yang paling fleksibel, skalabel, dan tahan lama untuk instance VM Anda. Jika tugas pelatihan Anda tidak memerlukan latensi disk persisten yang lebih rendah, Anda dapat menyimpan set data di bucket Cloud Storage.
Performa bucket Cloud Storage bergantung pada kelas penyimpanan yang Anda pilih dan lokasi bucket yang relatif terhadap instance Anda.
Membuat bucket Cloud Storage di zona yang sama dengan VM TPU Anda memberikan performa yang sebanding dengan persistent disk, tetapi dengan latensi yang lebih tinggi dan karakteristik throughput yang kurang konsisten.
Semua bucket Cloud Storage memiliki redundansi bawaan untuk melindungi data Anda dari kegagalan peralatan dan memastikan ketersediaan data melalui peristiwa pemeliharaan pusat data. Checksum dihitung untuk semua operasi Cloud Storage guna membantu memastikan bahwa yang Anda baca adalah yang Anda tulis.
Tidak seperti disk persisten, bucket Cloud Storage tidak dibatasi pada zona tempat instance Anda berada. Selain itu, Anda dapat membaca dan menulis data ke bucket dari beberapa instance secara bersamaan. Misalnya, Anda dapat mengonfigurasi instance di beberapa zona untuk membaca dan menulis data di bucket yang sama, bukan mereplikasi data ke persistent disk di beberapa zona.
Cloud Storage FUSE
Dengan Cloud Storage FUSE, Anda dapat memasang dan mengakses bucket Cloud Storage sebagai sistem file lokal. Hal ini memungkinkan aplikasi membaca dan menulis objek di dalam bucket Anda menggunakan semantik sistem file standar.
Lihat dokumentasi FUSE Cloud Storage untuk mengetahui detail tentang cara kerja Cloud Storage FUSE dan deskripsi tentang cara operasi Cloud Storage FUSE dipetakan ke operasi Cloud Storage. Anda dapat menemukan informasi tambahan tentang cara menggunakan Cloud Storage FUSE, seperti cara menginstal Cloud Storage FUSE CLI dan memasang bucket di GitHub.
Berbagi file Filestore
Berbagi file Filestore adalah Network Attached Storage (NAS) yang terkelola sepenuhnya untuk Compute Engine. Filestore menawarkan kompatibilitas dengan aplikasi perusahaan yang ada dan mendukung klien yang kompatibel dengan NFSv3.
Filestore menawarkan latensi rendah untuk operasi file. Untuk beban kerja yang sensitif terhadap latensi, Filestore mendukung kapasitas hingga 100 TB dan throughput 25 GB per detik serta 720 ribu IOPS, dengan variabilitas minimum dalam performa.
Dengan Filestore, Anda dapat memasang fitur berbagi file di VM TPU.
Langkah selanjutnya
- Pelajari cara menambahkan persistent disk ke instance.
- Pelajari cara menghubungkan instance ke bucket Cloud Storage.