Halaman ini diterjemahkan oleh Cloud Translation API.

Sistem file paralel untuk workload HPC

Last reviewed 2025-05-19 UTC

Dokumen ini memperkenalkan opsi penyimpanan di Google Cloud untuk workload komputasi berperforma tinggi (HPC), dan menjelaskan kapan harus menggunakan sistem file paralel untuk workload HPC. Dalam sistem file paralel, beberapa klien menggunakan jalur I/O paralel untuk mengakses data bersama yang disimpan di beberapa node penyimpanan jaringan.

Informasi dalam dokumen ini ditujukan untuk arsitek dan administrator yang mendesain, menyediakan, dan mengelola penyimpanan untuk workload HPC yang intensif data. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman konseptual tentang network file systems (NFS), sistem file paralel, POSIX, dan persyaratan penyimpanan aplikasi HPC.

Apa itu HPC?

Sistem HPC memecahkan masalah komputasi besar secara cepat dengan menggabungkan beberapa resource komputasi. HPC mendorong riset dan inovasi di berbagai industri seperti layanan kesehatan, ilmu hayati, media, hiburan, layanan keuangan, dan energi. Peneliti, ilmuwan, dan analis menggunakan sistem HPC untuk melakukan eksperimen, menjalankan simulasi, dan mengevaluasi prototipe. Workload HPC seperti pemrosesan seismik, pengurutan genomik, rendering media, dan pemodelan cuaca menghasilkan dan mengakses volume data yang besar dengan kecepatan data yang terus meningkat dan latensi yang semakin menurun. Penyimpanan dan pengelolaan data berperforma tinggi merupakan elemen penyusun infrastruktur HPC yang penting.

Opsi penyimpanan untuk workload HPC di Google Cloud

Menyiapkan dan mengoperasikan infrastruktur HPC secara lokal mahal, dan infrastrukturnya memerlukan pemeliharaan berkelanjutan. Selain itu, infrastruktur lokal biasanya tidak dapat diskalakan dengan cepat untuk menyesuaikan dengan perubahan permintaan. Perencanaan, pengadaan, deployment, dan penonaktifan hardware di infrastruktur lokal memerlukan waktu yang cukup lama, sehingga penambahan resource HPC tertunda atau kapasitas kurang dimanfaatkan. Di cloud, Anda dapat menyediakan infrastruktur HPC yang menggunakan teknologi terbaru secara efisien, dan dapat menskalakan kapasitas sesuai permintaan.

Google Cloud dan partner teknologi kami menawarkan opsi penyimpanan yang hemat biaya, fleksibel, dan skalabel untuk men-deploy infrastruktur HPC di cloud dan untuk meningkatkan infrastruktur HPC lokal Anda. Ilmuwan, peneliti, dan analis dapat dengan cepat mengakses kapasitas HPC tambahan untuk project mereka saat mereka membutuhkannya.

Untuk men-deploy workload HPC di Google Cloud, Anda dapat memilih dari layanan dan produk penyimpanan berikut, bergantung pada persyaratan beban kerja Anda:

Jenis beban kerja	Layanan dan produk penyimpanan yang direkomendasikan
Beban kerja yang memerlukan akses berlatensi rendah ke data tetapi tidak memerlukan I/O ekstrem ke set data bersama, dan yang memiliki pembagian data antar-klien secara terbatas.	Gunakan penyimpanan NFS. Pilih dari opsi berikut: Filestore Zonal dengan rentang kapasitas yang lebih tinggi Google Cloud NetApp Volumes
Beban kerja yang menghasilkan I/O yang kompleks, saling bergantung, dan berskala besar, seperti aplikasi HPC yang terkait erat yang menggunakan Message-Passing Interface (MPI) untuk komunikasi antar-proses yang andal singkat ini.	Gunakan sistem file paralel. Pilih dari opsi berikut: Google Cloud Managed Lustre DDN Infinia Sycomp Intelligent Data Storage Platform Untuk mengetahui informasi selengkapnya tentang persyaratan beban kerja yang dapat didukung oleh sistem file paralel, lihat Kapan harus menggunakan sistem file paralel.

Kapan harus menggunakan sistem file paralel

Dalam sistem file paralel, beberapa klien menyimpan dan mengakses data bersama di beberapa node penyimpanan jaringan menggunakan jalur I/O paralel. Sistem file paralel ideal untuk workload HPC yang terkait erat seperti workload kecerdasan buatan (AI) yang intensif data dan workload analisis yang menggunakan aplikasi SAS. Pertimbangkan untuk menggunakan sistem file paralel seperti Managed Lustre untuk workload HPC yang sensitif terhadap latensi yang memiliki salah satu persyaratan berikut:

Pemrosesan data yang dikaitkan secara erat: Workload HPC seperti pemodelan cuaca dan eksplorasi seismik perlu memproses data secara berulang menggunakan banyak tugas yang saling bergantung yang berjalan secara bersamaan di beberapa server. Proses ini biasanya menggunakan MPI untuk bertukar data secara berkala, dan menggunakan checkpointing untuk memulihkan kegagalan dengan cepat. Sistem file paralel memungkinkan klien yang saling bergantung untuk menyimpan dan mengakses data bersama dalam jumlah besar secara serentak melalui jaringan latensi rendah.
Dukungan untuk POSIX I/O API dan untuk semantik: Sistem file paralel seperti Managed Lustre ideal untuk beban kerja yang memerlukan POSIX API dan semantik. API sistem file dan semantiknya adalah kemampuan independen. Misalnya, NFS mendukung POSIX API, yaitu cara aplikasi membaca dan menulis data menggunakan fungsi seperti open(), read(), dan write(). Namun, cara NFS mengoordinasikan akses data antar-klien yang berbeda tidak sama dengan semantik POSIX untuk mengoordinasikan akses data antara thread yang berbeda dalam sebuah mesin. Misalnya, NFS tidak mendukung konsistensi cache baca setelah tulis POSIX antar klien; model ini mengandalkan konsistensi yang lemah pada NFSv3 dan konsistensi yang hampir terbuka di NFSv4.
Kapasitas petabyte: Sistem file paralel dapat diskalakan hingga beberapa petabyte kapasitas dalam satu namespace sistem file. NetApp Volumes mendukung hingga 1 PB, dan Filestore Regional dan Zonal mendukung hingga 100 TiB per sistem file. Cloud Storage menawarkan kapasitas andal dan murah yang diskalakan secara otomatis, tetapi mungkin tidak memenuhi semantik berbagi data dan persyaratan latensi rendah workload HPC.
Latensi rendah dan bandwidth tinggi: Untuk workload HPC yang memerlukan akses berkecepatan tinggi ke file yang sangat besar atau ke jutaan file kecil, sistem file paralel dapat mengungguli NFS dan penyimpanan objek. Latensi sub-milidetik yang disediakan oleh sistem file paralel jauh lebih rendah daripada penyimpanan objek, yang dapat memengaruhi IOPS maksimum. Selain itu, bandwidth maksimum yang didukung oleh sistem file paralel dapat jauh lebih tinggi daripada dalam sistem berbasis NFS, yang dapat membebani NIC VM.
Penskalaan klien ekstrem: Penyimpanan NFS dapat mendukung ribuan klien. Sistem file paralel dapat diskalakan untuk mendukung akses serentak ke data bersama dari lebih dari 10.000 klien dan dapat memberikan throughput tinggi terlepas dari jumlah klien.

Contoh aplikasi HPC yang terkait erat

Bagian ini menjelaskan contoh aplikasi HPC yang terkait erat yang memerlukan penyimpanan berlatensi rendah dan dengan throughput tinggi yang disediakan oleh sistem file paralel.

Pemodelan molekul dengan teknologi Al

Penelitian farmasi adalah proses yang mahal dan membutuhkan data secara intensif. Organisasi riset obat modern mengandalkan AI untuk mengurangi biaya penelitian dan pengembangan, untuk menskalakan operasi secara efisien, dan mempercepat penelitian ilmiah. Misalnya, peneliti menggunakan aplikasi berkemampuan AI untuk melakukan simulasi interaksi antara molekul dalam suatu obat dan untuk memprediksi efek perubahan pada senyawa dalam obat. Aplikasi ini berjalan pada prosesor GPU yang canggih dan paralel yang memuat, mengatur, dan menganalisis data dalam jumlah ekstrem untuk menyelesaikan simulasi dengan cepat. Sistem file paralel menyediakan IOPS dan throughput penyimpanan yang diperlukan untuk memaksimalkan performa aplikasi AI.

Analisis risiko kredit menggunakan aplikasi SAS

Lembaga jasa keuangan seperti pemberi pinjaman hipotek dan bank investasi perlu terus menganalisis dan memantau kelayakan kredit klien dan portofolio investasi mereka. Misalnya, pemberi pinjaman hipotek besar mengumpulkan data terkait risiko tentang ribuan calon klien setiap hari. Tim analis kredit menggunakan aplikasi analisis untuk secara kolaboratif meninjau berbagai bagian data untuk setiap klien, seperti pendapatan, histori kredit, dan pola pengeluaran. Insight dari analisis ini membantu analis kredit membuat rekomendasi peminjaman yang akurat dan tepat waktu.

Guna mempercepat dan menskalakan analisis untuk set data besar, institusi jasa keuangan menggunakan platform komputasi Grid seperti SAS Grid Manager. Sistem file paralel seperti Managed Lustre mendukung persyaratan penyimpanan throughput tinggi dan latensi rendah untuk aplikasi SAS multi-thread.

Ramalan cuaca

Untuk memprediksi pola cuaca di wilayah geografis tertentu, ahli meteorologi membagi wilayah tersebut menjadi beberapa sel, dan men-deploy perangkat pemantauan seperti radar bumi dan balon cuaca di setiap sel. Perangkat ini mengamati dan mengukur kondisi atmosfer secara berkala. Perangkat melakukan streaming data secara kontinu ke aplikasi prediksi cuaca yang berjalan di cluster HPC.

Aplikasi prediksi cuaca memproses data yang distreaming menggunakan model matematika yang didasarkan pada hubungan fisik yang diketahui antara parameter cuaca yang diukur. Tugas terpisah memproses data dari setiap sel di region. Saat aplikasi menerima pengukuran baru, setiap tugas melakukan iterasi melalui data terbaru untuk sel yang ditetapkan, dan menukar output dengan tugas untuk sel lain di region tersebut. Untuk memprediksi pola cuaca dengan andal, aplikasi perlu menyimpan dan membagikan terabyte data yang dihasilkan dan diakses oleh ribuan tugas yang dijalankan secara paralel.

CFD untuk desain pesawat

Dinamika cairan komputasi (CFD) melibatkan penggunaan model matematika, hukum fisik, dan logika komputasi untuk menyimulasikan perilaku gas atau cairan di sekitar objek yang bergerak. Ketika insinyur pesawat mendesain bodi pesawat, salah satu faktor yang mereka pertimbangkan adalah aerodinamis. CFD memungkinkan desainer menyimulasikan efek perubahan desain dengan cepat pada aerodinamis sebelum menginvestasikan waktu dan uang untuk membuat prototipe yang mahal. Setelah menganalisis hasil setiap simulasi yang dijalankan, para desainer mengoptimalkan atribut seperti volume dan bentuk masing-masing komponen tubuh pesawat, dan menyimulasikan ulang aerodinamis. CFD memungkinkan desainer pesawat untuk menyimulasikan efek dari ratusan perubahan desain tersebut dengan cepat.

Untuk menyelesaikan simulasi desain secara efisien, aplikasi CFD memerlukan akses submilidetik ke data yang dibagikan dan kemampuan untuk menyimpan data dalam jumlah besar dengan kecepatan hingga 100 GBps.

Ringkasan opsi sistem file paralel

Bagian ini memberikan ringkasan tingkat tinggi tentang opsi yang tersedia di Google Cloud untuk sistem file paralel.

Google Cloud Managed Lustre

Managed Lustre adalah layanan yang dikelola Google yang menyediakan penyimpanan throughput tinggi dan latensi rendah untuk workload HPC yang erat kaitannya. Sistem ini secara signifikan mempercepat workload HPC serta pelatihan dan inferensi AI dengan menyediakan akses berlatensi rendah dan ber-throughput tinggi ke set data yang sangat besar. Untuk mengetahui informasi tentang cara menggunakan Managed Lustre untuk workload AI dan ML, lihat Mendesain penyimpanan untuk workload AI dan ML di Google Cloud. Managed Lustre mendistribusikan data ke beberapa node penyimpanan, yang memungkinkan akses serentak oleh banyak VM. Akses paralel ini menghilangkan hambatan yang terjadi pada sistem file konvensional dan memungkinkan workload menyerap dan memproses data dalam jumlah besar yang diperlukan dengan cepat.

DDN Infinia

Jika Anda memerlukan orkestrasi data AI tingkat lanjut, Anda dapat menggunakan DDN Infinia, yang tersedia di Google Cloud Marketplace. Infinia menyediakan solusi kecerdasan data yang berfokus pada AI yang dioptimalkan untuk inferensi, pelatihan, dan analisis real-time. Layanan ini memungkinkan penyerapan data yang sangat cepat, pengindeksan yang kaya metadata, dan integrasi yang lancar dengan framework AI seperti TensorFlow dan PyTorch.

Berikut adalah fitur utama DDN Infinia:

Performa tinggi: Memberikan latensi sub-milidetik dan throughput beberapa TB/dtk.
Skalabilitas: Mendukung penskalaan dari terabyte hingga exabyte dan dapat mengakomodasi hingga 100.000+ GPU dan satu juta klien serentak dalam satu deployment.
Multi-tenancy dengan kualitas layanan (QoS) yang dapat diprediksi: Menawarkan lingkungan yang aman dan terisolasi untuk beberapa tenant dengan QoS yang dapat diprediksi untuk performa yang konsisten di seluruh workload.
Akses data terpadu: Memungkinkan integrasi yang lancar dengan aplikasi dan alur kerja yang ada melalui dukungan multi-protokol bawaan, termasuk untuk Amazon S3 yang kompatibel, CSI, dan Cinder.
Keamanan tingkat lanjut: Menampilkan enkripsi bawaan, pengodean penghapusan yang kompatibel dengan domain kesalahan, dan snapshot yang membantu memastikan perlindungan dan kepatuhan data.

Platform Penyimpanan Data Cerdas Sycomp

Sycomp Intelligent Data Storage Platform, yang tersedia di Google Cloud Marketplace, memungkinkan Anda menjalankan komputasi berperforma tinggi (HPC), AI dan ML, serta workload big data di Google Cloud. Dengan Sycomp Storage, Anda dapat mengakses data secara bersamaan dari ribuan VM, mengurangi biaya dengan mengelola tingkatan penyimpanan secara otomatis, dan menjalankan aplikasi Anda secara lokal atau di Google Cloud. Sycomp Storage dapat di-deploy dengan cepat dan mendukung akses ke data Anda melalui NFS dan klien IBM Storage Scale.

IBM Storage Scale adalah sistem file paralel yang membantu mengelola volume besar (PB) data dengan aman. Sycomp Storage Scale adalah sistem file paralel yang sangat cocok untuk HPC, AI, ML, big data, dan aplikasi lain yang memerlukan sistem file bersama yang kompatibel dengan POSIX. Dengan kapasitas penyimpanan yang dapat disesuaikan dan penskalaan performa, Sycomp Storage dapat mendukung beban kerja HPC, AI, dan ML dari kecil hingga besar.

Setelah men-deploy cluster di Google Cloud, Anda dapat menentukan cara penggunaannya. Pilih apakah Anda ingin menggunakan cluster hanya di cloud atau dalam mode hybrid dengan menghubungkan ke cluster IBM Storage Scale lokal yang ada, solusi NAS NFS pihak ketiga, atau solusi penyimpanan berbasis objek lainnya.

Kontributor

Penulis: Kumar Dhanagopal | Cross-Product Solution Developer

Kontributor lainnya:

Barak Epstein | Product Manager
Carlos Boneti | Senior Staff Software Engineer
Dean Hildebrand | Technical Director, Office of the CTO
Sean Derrington | Group Product Manager, Storage
Wyatt Gorman | HPC Outbound Product Manager