Sistem file paralel untuk workload HPC

Last reviewed 2023-11-16 UTC

Dokumen ini memperkenalkan opsi penyimpanan di Google Cloud untuk beban kerja komputasi berperforma tinggi (HPC), dan menjelaskan kapan harus menggunakan sistem file paralel untuk workload HPC. Dalam sistem file paralel, beberapa klien menggunakan jalur I/O paralel untuk mengakses data bersama yang disimpan di beberapa node penyimpanan jaringan.

Informasi dalam dokumen ini ditujukan untuk arsitek dan administrator yang mendesain, menyediakan, dan mengelola penyimpanan untuk workload HPC yang intensif data. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman konseptual tentang network file systems (NFS), sistem file paralel, POSIX, dan persyaratan penyimpanan aplikasi HPC.

Apa itu HPC?

Sistem HPC memecahkan masalah komputasi besar secara cepat dengan menggabungkan beberapa resource komputasi. HPC mendorong riset dan inovasi di berbagai industri seperti layanan kesehatan, ilmu hayati, media, hiburan, layanan keuangan, dan energi. Peneliti, ilmuwan, dan analis menggunakan sistem HPC untuk melakukan eksperimen, menjalankan simulasi, dan mengevaluasi prototipe. Workload HPC seperti pemrosesan seismik, pengurutan genomik, rendering media, dan pemodelan cuaca menghasilkan dan mengakses volume data yang besar dengan kecepatan data yang terus meningkat dan latensi yang semakin menurun. Penyimpanan dan pengelolaan data berperforma tinggi merupakan elemen penyusun infrastruktur HPC yang penting.

Opsi penyimpanan untuk workload HPC di Google Cloud.

Menyiapkan dan mengoperasikan infrastruktur HPC secara lokal mahal, dan infrastrukturnya memerlukan pemeliharaan berkelanjutan. Selain itu, infrastruktur lokal biasanya tidak dapat diskalakan dengan cepat untuk menyesuaikan dengan perubahan permintaan. Perencanaan, pengadaan, deployment, dan penonaktifan hardware di infrastruktur lokal memerlukan waktu yang cukup lama, sehingga penambahan resource HPC tertunda atau kapasitas kurang dimanfaatkan. Di cloud, Anda dapat menyediakan infrastruktur HPC yang menggunakan teknologi terbaru secara efisien, dan dapat menskalakan kapasitas sesuai permintaan.

Google Cloud dan partner teknologi kami menawarkan opsi penyimpanan yang hemat biaya, fleksibel, dan skalabel untuk men-deploy infrastruktur HPC di cloud dan untuk meningkatkan infrastruktur HPC lokal Anda. Ilmuwan, peneliti, dan analis dapat dengan cepat mengakses kapasitas HPC tambahan untuk project mereka saat mereka membutuhkannya.

Untuk men-deploy workload HPC di Google Cloud, Anda dapat memilih dari layanan dan produk penyimpanan berikut, tergantung pada persyaratan beban kerja Anda:

Jenis beban kerja Layanan dan produk penyimpanan yang direkomendasikan
Beban kerja yang memerlukan akses berlatensi rendah ke data tetapi tidak memerlukan I/O ekstrem ke set data bersama, dan yang memiliki pembagian data antar-klien secara terbatas. Gunakan penyimpanan NFS. Pilih dari opsi berikut:
Beban kerja yang menghasilkan I/O yang kompleks, saling bergantung, dan berskala besar, seperti aplikasi HPC yang terkait erat yang menggunakan Message-Passing Interface (MPI) untuk komunikasi antar-proses yang andal singkat ini. Gunakan sistem file paralel. Pilih dari opsi berikut:
Untuk mengetahui informasi selengkapnya tentang persyaratan beban kerja yang dapat didukung oleh sistem file paralel, lihat Kapan harus menggunakan sistem file paralel.

Kapan harus menggunakan sistem file paralel

Dalam sistem file paralel, beberapa klien menyimpan dan mengakses data bersama di beberapa node penyimpanan jaringan menggunakan jalur I/O paralel. Sistem file paralel ideal untuk workload HPC yang terkait erat seperti workload kecerdasan buatan (AI) yang intensif data dan workload analisis yang menggunakan aplikasi SAS. Pertimbangkan untuk menggunakan sistem file paralel seperti Lustre untuk beban kerja HPC yang sensitif terhadap latensi yang memiliki salah satu persyaratan berikut:

  • Pemrosesan data yang dikaitkan secara erat: Workload HPC seperti pemodelan cuaca dan eksplorasi seismik perlu memproses data secara berulang menggunakan banyak tugas yang saling bergantung yang berjalan secara bersamaan di beberapa server. Proses ini biasanya menggunakan MPI untuk bertukar data secara berkala, dan menggunakan checkpointing untuk memulihkan kegagalan dengan cepat. Sistem file paralel memungkinkan klien yang saling bergantung untuk menyimpan dan mengakses data bersama dalam jumlah besar secara serentak melalui jaringan latensi rendah.
  • Dukungan untuk POSIX I/O API dan untuk semantik: Sistem file paralel seperti Lustre ideal untuk beban kerja yang memerlukan POSIX API dan semantik. API sistem file dan semantiknya adalah kemampuan independen. Misalnya, NFS mendukung POSIX API, yaitu cara aplikasi membaca dan menulis data menggunakan fungsi seperti open(), read(), dan write(). Namun, cara NFS mengoordinasikan akses data antar-klien yang berbeda tidak sama dengan semantik POSIX untuk mengoordinasikan akses data antara thread yang berbeda dalam sebuah mesin. Misalnya, NFS tidak mendukung konsistensi cache baca setelah tulis POSIX antar klien; model ini mengandalkan konsistensi yang lemah pada NFSv3 dan konsistensi yang hampir terbuka di NFSv4.
  • Kapasitas petabyte: Sistem file paralel dapat diskalakan hingga beberapa petabyte kapasitas dalam satu namespace sistem file. NetApp Volumes dan Filestore Zonal mendukung hingga 100 TiB per set data. Cloud Storage menawarkan kapasitas berbiaya rendah dan andal yang dapat diskalakan secara otomatis, tetapi mungkin tidak memenuhi semantik berbagi data dan persyaratan latensi rendah untuk workload HPC.
  • Latensi rendah dan bandwidth tinggi: Untuk workload HPC yang memerlukan akses berkecepatan tinggi ke file yang sangat besar atau ke jutaan file kecil, sistem file paralel dapat mengungguli NFS dan penyimpanan objek. Latensi yang ditawarkan oleh sistem file paralel (0,5 md hingga 10 md) jauh lebih rendah daripada penyimpanan objek, yang dapat memengaruhi IOPS maksimum. Selain itu, bandwidth maksimum yang didukung oleh sistem file paralel dapat jauh lebih tinggi daripada dalam sistem berbasis NFS. Misalnya, DDN EXAScaler di Google Cloud telah menunjukkan bandwidth baca lebih dari 10 Tbps, bandwidth tulis lebih dari 700 GBps, dan 1,9 juta panggilan stat() file per detik menggunakan Benchmark IO500.
  • Penskalaan klien ekstrem: Meskipun penyimpanan NFS dapat mendukung ribuan klien, sistem file paralel dapat diskalakan untuk mendukung akses serentak ke data bersama dari lebih dari 10,000 klien.

Contoh aplikasi HPC yang terkait erat

Bagian ini menjelaskan contoh aplikasi HPC yang terkait erat yang memerlukan penyimpanan berlatensi rendah dan dengan throughput tinggi yang disediakan oleh sistem file paralel.

Pemodelan molekul dengan teknologi Al

Penelitian farmasi adalah proses yang mahal dan membutuhkan data secara intensif. Organisasi riset obat modern mengandalkan AI untuk mengurangi biaya penelitian dan pengembangan, untuk menskalakan operasi secara efisien, dan mempercepat penelitian ilmiah. Misalnya, peneliti menggunakan aplikasi berkemampuan AI untuk melakukan simulasi interaksi antara molekul dalam suatu obat dan untuk memprediksi efek perubahan pada senyawa dalam obat. Aplikasi ini berjalan pada prosesor GPU yang canggih dan paralel yang dapat memuat, mengatur, dan menganalisis data dalam jumlah ekstrim untuk menyelesaikan simulasi dengan cepat. Sistem file paralel menyediakan IOPS dan throughput penyimpanan yang diperlukan untuk memaksimalkan performa aplikasi AI.

Analisis risiko kredit menggunakan aplikasi SAS

Lembaga jasa keuangan seperti pemberi pinjaman hipotek dan bank investasi perlu terus menganalisis dan memantau kelayakan kredit klien dan portofolio investasi mereka. Misalnya, pemberi pinjaman hipotek besar mengumpulkan data terkait risiko tentang ribuan calon klien setiap hari. Tim analis kredit menggunakan aplikasi analisis untuk secara kolaboratif meninjau berbagai bagian data untuk setiap klien, seperti pendapatan, histori kredit, dan pola pengeluaran. Insight dari analisis ini membantu analis kredit membuat rekomendasi peminjaman yang akurat dan tepat waktu.

Guna mempercepat dan menskalakan analisis untuk set data besar, institusi jasa keuangan menggunakan platform komputasi Grid seperti SAS Grid Manager. Sistem file paralel seperti DDN EXAScaler di Google Cloud mendukung persyaratan penyimpanan throughput tinggi dan latensi rendah untuk aplikasi SAS multi-thread.

Ramalan cuaca

Untuk memprediksi pola cuaca di wilayah geografis tertentu, ahli meteorologi membagi wilayah tersebut menjadi beberapa sel, dan men-deploy perangkat pemantauan seperti radar bumi dan balon cuaca di setiap sel. Perangkat ini mengamati dan mengukur kondisi atmosfer secara berkala. Perangkat melakukan streaming data secara kontinu ke aplikasi prediksi cuaca yang berjalan di cluster HPC.

Aplikasi prediksi cuaca memproses data yang distreaming menggunakan model matematika yang didasarkan pada hubungan fisik yang diketahui antara parameter cuaca yang diukur. Tugas terpisah memproses data dari setiap sel di region. Saat aplikasi menerima pengukuran baru, setiap tugas melakukan iterasi melalui data terbaru untuk sel yang ditetapkan, dan menukar output dengan tugas untuk sel lain di region tersebut. Untuk memprediksi pola cuaca dengan andal, aplikasi perlu menyimpan dan membagikan terabyte data yang dihasilkan dan diakses oleh ribuan tugas yang dijalankan secara paralel.

CFD untuk desain pesawat

Dinamika cairan komputasi (CFD) melibatkan penggunaan model matematika, hukum fisik, dan logika komputasi untuk menyimulasikan perilaku gas atau cairan di sekitar objek yang bergerak. Ketika insinyur pesawat mendesain bodi pesawat, salah satu faktor yang mereka pertimbangkan adalah aerodinamis. CFD memungkinkan desainer menyimulasikan efek perubahan desain dengan cepat pada aerodinamis sebelum menginvestasikan waktu dan uang untuk membuat prototipe yang mahal. Setelah menganalisis hasil setiap simulasi yang dijalankan, para desainer mengoptimalkan atribut seperti volume dan bentuk masing-masing komponen tubuh pesawat, dan menyimulasikan ulang aerodinamis. CFD memungkinkan desainer pesawat untuk menyimulasikan efek dari ratusan perubahan desain tersebut dengan cepat.

Untuk menyelesaikan simulasi desain secara efisien, aplikasi CFD memerlukan akses submilidetik ke data yang dibagikan dan kemampuan untuk menyimpan data dalam jumlah besar dengan kecepatan hingga 100 GBps.

Ringkasan Lustre dan EXAScaler Cloud

Lustre adalah sistem file paralel open source yang menyediakan penyimpanan throughput tinggi dan latensi rendah untuk workload HPC yang erat kaitannya. Selain titik pemasangan POSIX standar di Linux, Lustre mendukung library I/O dan data seperti NetCDF, HDF5, dan MPI-IO, yang mengaktifkan I/O paralel untuk berbagai domain aplikasi. Lustre mendukung banyak deployment HPC terbesar di seluruh dunia. Sistem file Lustre memiliki arsitektur skalabel yang berisi komponen berikut:

  • Server pengelolaan (MGS) menyimpan dan mengelola informasi konfigurasi tentang satu atau beberapa sistem file Lustre, dan memberikan informasi ini ke komponen lainnya.
  • Server metadata (MDS) mengelola akses klien ke namespace sistem file Lustre, menggunakan metadata (misalnya, hierarki direktori, nama file, dan izin akses).
  • Server penyimpanan objek (OSS) mengelola akses klien ke file yang disimpan dalam sistem file Lustre.
  • Perangkat lunak klien Lustre memungkinkan klien untuk memasang sistem file Lustre.

Beberapa instance MDS dan OSS dapat muncul dalam sistem file. Anda dapat menambahkan instance MDS dan OSS baru jika diperlukan. Untuk mengetahui informasi selengkapnya tentang sistem file Lustre dan cara kerjanya, lihat dokumentasi Lustre.

EXAScaler Cloud adalah Lustre versi perusahaan yang ditawarkan oleh DDN, partner Google. EXAScaler Cloud adalah solusi file bersama untuk pemrosesan data berperforma tinggi dan untuk mengelola data dalam jumlah besar yang diperlukan guna mendukung workload AI, HPC, dan analisis. EXAScaler Cloud ideal untuk workload AI inferensi dan deep learning di Google Cloud. Anda dapat men-deploy-nya dalam arsitektur hybrid cloud untuk meningkatkan kapasitas HPC lokal Anda. EXAScaler Cloud juga dapat berfungsi sebagai repositori untuk menyimpan aset jangka panjang dari deployment EXAScaler lokal.

Ringkasan Penyimpanan Sycomp yang Didukung oleh IBM Spectrum Scale

Sycomp Storage Fueled by IBM Spectrum Scale di Google Cloud Marketplace dapat Anda gunakan untuk menjalankan komputasi berperforma tinggi (HPC), kecerdasan buatan (AI), machine learning (ML), dan workload big data di Google Cloud. Dengan Sycomp Storage, Anda dapat mengakses data secara serentak dari ribuan VM, mengurangi biaya dengan mengelola tingkat penyimpanan secara otomatis, dan menjalankan aplikasi Anda secara lokal atau di Google Cloud. Sycomp Storage Fueled by IBM Spectrum Scale tersedia di Cloud Marketplace, dapat di-deploy dengan cepat, dan mendukung akses ke data Anda melalui NFS dan klien IBM Spectrum Scale.

IBM Spectrum Scale adalah sistem file paralel yang membantu mengelola volume besar (PB) data dengan aman. Sistem file paralel IBM Spectrum Scale sangat cocok untuk HPC, AI, ML, big data, dan aplikasi lain yang memerlukan sistem file bersama dengan mematuhi persyaratan POSIX. Dengan kapasitas penyimpanan yang dapat disesuaikan dan penskalaan performa, Sycomp Storage dapat mendukung beban kerja HPC, AI, dan ML dari kecil hingga besar.

Setelah Anda men-deploy cluster di Google Cloud, tentukan cara Anda akan menggunakannya. Pilih apakah Anda ingin menggunakannya hanya di cloud atau dalam mode hybrid dengan menghubungkan ke cluster IBM Spectrum Scale lokal yang ada.

Langkah selanjutnya

Kontributor

Penulis: Kumar Dhanagopal | Developer Solusi Lintas Produk

Kontributor lainnya: