Dokumen ini memperkenalkan opsi penyimpanan di Google Cloud untuk beban kerja komputasi berperforma tinggi (HPC), dan menjelaskan kapan harus menggunakan sistem file paralel untuk beban kerja HPC. Dalam sistem file paralel, beberapa klien menggunakan jalur I/O paralel untuk mengakses data bersama yang disimpan di beberapa node penyimpanan jaringan.
Informasi dalam dokumen ini ditujukan untuk arsitek dan administrator yang mendesain, menyediakan, dan mengelola penyimpanan untuk workload HPC yang intensif data. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman konseptual tentang network file systems (NFS), sistem file paralel, POSIX, dan persyaratan penyimpanan aplikasi HPC.
Apa itu HPC?
Sistem HPC memecahkan masalah komputasi besar secara cepat dengan menggabungkan beberapa resource komputasi. HPC mendorong riset dan inovasi di berbagai industri seperti layanan kesehatan, ilmu hayati, media, hiburan, layanan keuangan, dan energi. Peneliti, ilmuwan, dan analis menggunakan sistem HPC untuk melakukan eksperimen, menjalankan simulasi, dan mengevaluasi prototipe. Workload HPC seperti pemrosesan seismik, pengurutan genomik, rendering media, dan pemodelan cuaca menghasilkan dan mengakses volume data yang besar dengan kecepatan data yang terus meningkat dan latensi yang semakin menurun. Penyimpanan dan pengelolaan data berperforma tinggi merupakan elemen penyusun infrastruktur HPC yang penting.
Opsi penyimpanan untuk workload HPC di Google Cloud.
Menyiapkan dan mengoperasikan infrastruktur HPC secara lokal mahal, dan infrastrukturnya memerlukan pemeliharaan berkelanjutan. Selain itu, infrastruktur lokal biasanya tidak dapat diskalakan dengan cepat untuk menyesuaikan dengan perubahan permintaan. Perencanaan, pengadaan, deployment, dan penonaktifan hardware di infrastruktur lokal memerlukan waktu yang cukup lama, sehingga penambahan resource HPC tertunda atau kapasitas kurang dimanfaatkan. Di cloud, Anda dapat menyediakan infrastruktur HPC yang menggunakan teknologi terbaru secara efisien, dan dapat menskalakan kapasitas sesuai permintaan.
Google Cloud dan partner teknologi kami menawarkan opsi penyimpanan yang hemat biaya, fleksibel, dan skalabel untuk men-deploy infrastruktur HPC di cloud dan untuk meningkatkan infrastruktur HPC lokal Anda. Ilmuwan, peneliti, dan analis dapat dengan cepat mengakses kapasitas HPC tambahan untuk project mereka saat mereka membutuhkannya.
Untuk men-deploy workload HPC di Google Cloud, Anda dapat memilih dari layanan dan produk penyimpanan berikut, tergantung pada persyaratan beban kerja Anda:
Jenis beban kerja | Layanan dan produk penyimpanan yang direkomendasikan |
---|---|
Beban kerja yang memerlukan akses berlatensi rendah ke data tetapi tidak memerlukan I/O ekstrem ke set data bersama, dan yang memiliki pembagian data antar-klien secara terbatas. | Gunakan penyimpanan NFS. Pilih dari opsi berikut: |
Beban kerja yang menghasilkan I/O yang kompleks, saling bergantung, dan berskala besar, seperti aplikasi HPC yang terkait erat yang menggunakan Message-Passing Interface (MPI) untuk komunikasi antar-proses yang andal singkat ini. | Gunakan sistem file paralel. Pilih dari opsi berikut:
|
Kapan harus menggunakan sistem file paralel
Dalam sistem file paralel, beberapa klien menyimpan dan mengakses data bersama di beberapa node penyimpanan jaringan menggunakan jalur I/O paralel. Sistem file paralel ideal untuk workload HPC yang terkait erat seperti workload kecerdasan buatan (AI) yang intensif data dan workload analisis yang menggunakan aplikasi SAS. Pertimbangkan untuk menggunakan sistem file paralel seperti Lustre untuk beban kerja HPC yang sensitif terhadap latensi yang memiliki salah satu persyaratan berikut:
- Pemrosesan data yang dikaitkan secara erat: Workload HPC seperti pemodelan cuaca dan eksplorasi seismik perlu memproses data secara berulang menggunakan banyak tugas yang saling bergantung yang berjalan secara bersamaan di beberapa server. Proses ini biasanya menggunakan MPI untuk bertukar data secara berkala, dan menggunakan checkpointing untuk memulihkan kegagalan dengan cepat. Sistem file paralel memungkinkan klien yang saling bergantung untuk menyimpan dan mengakses data bersama dalam jumlah besar secara serentak melalui jaringan latensi rendah.
- Dukungan untuk POSIX I/O API dan untuk semantik: Sistem file paralel
seperti Lustre ideal untuk beban kerja yang memerlukan POSIX API dan
semantik. API sistem file dan semantiknya adalah kemampuan
independen. Misalnya, NFS mendukung POSIX API, yaitu cara
aplikasi membaca dan menulis data menggunakan fungsi seperti
open()
,read()
, danwrite()
. Namun, cara NFS mengoordinasikan akses data antar-klien yang berbeda tidak sama dengan semantik POSIX untuk mengoordinasikan akses data antara thread yang berbeda dalam sebuah mesin. Misalnya, NFS tidak mendukung konsistensi cache baca setelah tulis POSIX antar klien; model ini mengandalkan konsistensi yang lemah pada NFSv3 dan konsistensi yang hampir terbuka di NFSv4. - Kapasitas petabyte: Sistem file paralel dapat diskalakan hingga beberapa petabyte kapasitas dalam satu namespace sistem file. Volume NetApp dan Zonal Filestore mendukung hingga 100 TiB per set data. Cloud Storage menawarkan kapasitas andal dan murah yang diskalakan secara otomatis, tetapi mungkin tidak memenuhi semantik berbagi data dan persyaratan latensi rendah workload HPC.
- Latensi rendah dan bandwidth tinggi: Untuk workload HPC yang memerlukan
akses berkecepatan tinggi ke file yang sangat besar atau ke jutaan file kecil,
sistem file paralel dapat mengungguli NFS dan penyimpanan objek. Latensi
yang ditawarkan oleh sistem file paralel (0,5 md hingga 10 md) jauh lebih rendah
daripada penyimpanan objek, yang dapat memengaruhi IOPS maksimum. Selain itu, bandwidth
maksimum yang didukung oleh sistem file paralel dapat
jauh lebih tinggi daripada dalam sistem berbasis NFS. Misalnya, DDN EXAScaler
di Google Cloud telah menunjukkan bandwidth baca lebih dari 10 Tbps, bandwidth tulis lebih
dari 700 GBps, dan 1,9 juta panggilan
stat()
file per detik menggunakan Benchmark IO500. - Penskalaan klien ekstrem: Meskipun penyimpanan NFS dapat mendukung ribuan klien, sistem file paralel dapat diskalakan untuk mendukung akses serentak ke data bersama dari lebih dari 10,000 klien.
Contoh aplikasi HPC yang terkait erat
Bagian ini menjelaskan contoh aplikasi HPC yang terkait erat yang memerlukan penyimpanan berlatensi rendah dan dengan throughput tinggi yang disediakan oleh sistem file paralel.
Pemodelan molekul dengan teknologi Al
Penelitian farmasi adalah proses yang mahal dan membutuhkan data secara intensif. Organisasi riset obat modern mengandalkan AI untuk mengurangi biaya penelitian dan pengembangan, untuk menskalakan operasi secara efisien, dan mempercepat penelitian ilmiah. Misalnya, peneliti menggunakan aplikasi berkemampuan AI untuk melakukan simulasi interaksi antara molekul dalam suatu obat dan untuk memprediksi efek perubahan pada senyawa dalam obat. Aplikasi ini berjalan pada prosesor GPU yang canggih dan paralel yang memuat, mengatur, dan menganalisis data dalam jumlah ekstrim untuk menyelesaikan simulasi dengan cepat. Sistem file paralel menyediakan IOPS dan throughput penyimpanan yang diperlukan untuk memaksimalkan performa aplikasi AI.
Analisis risiko kredit menggunakan aplikasi SAS
Lembaga jasa keuangan seperti pemberi pinjaman hipotek dan bank investasi perlu terus menganalisis dan memantau kelayakan kredit klien dan portofolio investasi mereka. Misalnya, pemberi pinjaman hipotek besar mengumpulkan data terkait risiko tentang ribuan calon klien setiap hari. Tim analis kredit menggunakan aplikasi analisis untuk secara kolaboratif meninjau berbagai bagian data untuk setiap klien, seperti pendapatan, histori kredit, dan pola pengeluaran. Insight dari analisis ini membantu analis kredit membuat rekomendasi peminjaman yang akurat dan tepat waktu.
Guna mempercepat dan menskalakan analisis untuk set data besar, institusi jasa keuangan menggunakan platform komputasi Grid seperti SAS Grid Manager. Sistem file paralel seperti DDN EXAScaler di Google Cloud mendukung persyaratan penyimpanan throughput tinggi dan latensi rendah untuk aplikasi SAS multi-thread.
Ramalan cuaca
Untuk memprediksi pola cuaca di wilayah geografis tertentu, ahli meteorologi membagi wilayah tersebut menjadi beberapa sel, dan men-deploy perangkat pemantauan seperti radar bumi dan balon cuaca di setiap sel. Perangkat ini mengamati dan mengukur kondisi atmosfer secara berkala. Perangkat melakukan streaming data secara kontinu ke aplikasi prediksi cuaca yang berjalan di cluster HPC.
Aplikasi prediksi cuaca memproses data yang distreaming menggunakan model matematika yang didasarkan pada hubungan fisik yang diketahui antara parameter cuaca yang diukur. Tugas terpisah memproses data dari setiap sel di region. Saat aplikasi menerima pengukuran baru, setiap tugas melakukan iterasi melalui data terbaru untuk sel yang ditetapkan, dan menukar output dengan tugas untuk sel lain di region tersebut. Untuk memprediksi pola cuaca dengan andal, aplikasi perlu menyimpan dan membagikan terabyte data yang dihasilkan dan diakses oleh ribuan tugas yang dijalankan secara paralel.
CFD untuk desain pesawat
Dinamika cairan komputasi (CFD) melibatkan penggunaan model matematika, hukum fisik, dan logika komputasi untuk menyimulasikan perilaku gas atau cairan di sekitar objek yang bergerak. Ketika insinyur pesawat mendesain bodi pesawat, salah satu faktor yang mereka pertimbangkan adalah aerodinamis. CFD memungkinkan desainer menyimulasikan efek perubahan desain dengan cepat pada aerodinamis sebelum menginvestasikan waktu dan uang untuk membuat prototipe yang mahal. Setelah menganalisis hasil setiap simulasi yang dijalankan, para desainer mengoptimalkan atribut seperti volume dan bentuk masing-masing komponen tubuh pesawat, dan menyimulasikan ulang aerodinamis. CFD memungkinkan desainer pesawat untuk menyimulasikan efek dari ratusan perubahan desain tersebut dengan cepat.
Untuk menyelesaikan simulasi desain secara efisien, aplikasi CFD memerlukan akses submilidetik ke data yang dibagikan dan kemampuan untuk menyimpan data dalam jumlah besar dengan kecepatan hingga 100 GBps.
Ringkasan Lustre dan EXAScaler Cloud
Lustre adalah sistem file paralel open source yang menyediakan penyimpanan throughput tinggi dan latensi rendah untuk workload HPC yang erat kaitannya. Selain titik pemasangan POSIX standar di Linux, Lustre mendukung library I/O dan data seperti NetCDF, HDF5, dan MPI-IO, yang mengaktifkan I/O paralel untuk berbagai domain aplikasi. Lustre mendukung banyak deployment HPC terbesar di seluruh dunia. Sistem file Lustre memiliki arsitektur skalabel yang berisi komponen berikut:
- Server pengelolaan (MGS) menyimpan dan mengelola informasi konfigurasi tentang satu atau beberapa sistem file Lustre, dan memberikan informasi ini ke komponen lainnya.
- Server metadata (MDS) mengelola akses klien ke namespace sistem file Lustre, menggunakan metadata (misalnya, hierarki direktori, nama file, dan izin akses).
- Server penyimpanan objek (OSS) mengelola akses klien ke file yang disimpan dalam sistem file Lustre.
- Perangkat lunak klien Lustre memungkinkan klien untuk memasang sistem file Lustre.
Beberapa instance MDS dan OSS dapat muncul dalam sistem file. Anda dapat menambahkan instance MDS dan OSS baru jika diperlukan. Untuk mengetahui informasi selengkapnya tentang sistem file Lustre dan cara kerjanya, lihat dokumentasi Lustre.
EXAScaler Cloud adalah Lustre versi perusahaan yang ditawarkan oleh DDN, partner Google. EXAScaler Cloud adalah solusi file bersama untuk pemrosesan data berperforma tinggi dan untuk mengelola data dalam jumlah besar yang diperlukan guna mendukung workload AI, HPC, dan analisis. EXAScaler Cloud ideal untuk workload AI inferensi dan deep learning di Google Cloud. Anda dapat men-deploy-nya dalam arsitektur hybrid cloud untuk meningkatkan kapasitas HPC lokal Anda. EXAScaler Cloud juga dapat berfungsi sebagai repositori untuk menyimpan aset jangka panjang dari deployment EXAScaler lokal.
Ringkasan Penyimpanan Sycomp yang Didukung oleh IBM Storage Scale
Sycomp Storage Fueled oleh IBM Storage Scale di Google Cloud Marketplace memungkinkan Anda menjalankan komputasi berperforma tinggi (HPC), kecerdasan buatan (AI), machine learning (ML), dan workload big data di Google Cloud. Dengan Sycomp Storage, Anda dapat mengakses data secara bersamaan dari ribuan VM, mengurangi biaya dengan mengelola tingkat penyimpanan secara otomatis, dan menjalankan aplikasi Anda secara lokal atau di Google Cloud. Sycomp Storage Fueled oleh IBM Storage Scale tersedia di Cloud Marketplace, dapat di-deploy dengan cepat, dan mendukung akses ke data Anda melalui NFS dan klien IBM Storage Scale.
IBM Storage Scale adalah sistem file paralel yang membantu mengelola volume besar (PB) data dengan aman. Sycomp Storage Scale adalah sistem file paralel yang sangat cocok untuk HPC, AI, ML, big data, dan aplikasi lain yang memerlukan sistem file bersama yang mematuhi POSIX. Dengan kapasitas penyimpanan yang dapat disesuaikan dan penskalaan performa, Sycomp Storage dapat mendukung beban kerja HPC, AI, dan ML dari kecil hingga besar.
Setelah Anda men-deploy cluster di Google Cloud, tentukan cara Anda akan menggunakannya. Pilih apakah Anda ingin menggunakan cluster hanya di cloud atau dalam mode hybrid dengan menghubungkan ke cluster IBM Storage Scale lokal yang ada, solusi NFS NAS pihak ketiga, atau solusi penyimpanan berbasis objek lainnya.
Langkah selanjutnya
- Pelajari lebih lanjut tentang DDN EXAScaler Cloud dan kemitraan DDN dengan Google.
- Baca tentang pengiriman Google Cloud yang menunjukkan sistem file gosok berbasis Lustre berbasis 10+ Tbps tentang peringkat sistem penyimpanan HPC IO500.
- Pelajari lebih lanjut tentang Lustre.
- Pelajari lebih lanjut Sycomp Storage yang Didukung oleh IBM Spectrum Scale.
Kontributor
Penulis: Kumar Dhanagopal | Developer Solusi Lintas Produk
Kontributor lainnya:
- Barak Epstein | Product Manager
- Carlos Boneti | Senior Staff Software Engineer
- Dean Hildebrand | Technical Director, Office of the CTO
- Sean Derrington | Group Outbound Product Manager, Storage
- Wyatt Gorman | HPC Solutions Manager