Untuk membuat infrastruktur bagi aplikasi yang terhubung erat dan dapat diskalakan di beberapa node, Anda dapat membuat cluster instance virtual machine (VM). Panduan ini memberikan ringkasan tingkat tinggi tentang pertimbangan dan langkah-langkah utama untuk mengonfigurasi cluster instance virtual machine (VM) untuk workload komputasi berperforma tinggi (HPC) menggunakan alokasi resource padat.
Compute Engine menyediakan berbagai cara untuk membuat banyak instance VM yang terhubung ke jaringan yang sama, tetapi tidak memerlukan alokasi resource yang padat. Misalnya, Anda dapat menggunakan salah satu metode berikut, yang dibahas di tempat lain dalam dokumentasi Compute Engine:
Anda juga dapat membuat skrip yang menyertakan perintah untuk membuat instance individual dan mengaitkan kebijakan penempatan ringkas dengan instance untuk mengurangi latensi.
Dengan H4D (Pratinjau), Compute Engine menambahkan dukungan untuk menjalankan workload HPC yang sangat besar dengan memperlakukan seluruh cluster instance VM sebagai satu komputer. Dengan menggunakan penempatan VM yang mendukung topologi, Anda dapat mengakses banyak instance dalam satu superblock jaringan dan meminimalkan latensi jaringan. Anda juga dapat mengonfigurasi Cloud RDMA di instance ini untuk memaksimalkan performa komunikasi antar-node, yang sangat penting untuk workload HPC dengan pengaitan erat.
Anda membuat cluster VM HPC ini dengan H4D dengan mencadangkan blok kapasitas, bukan resource individual. Menggunakan blok kapasitas untuk cluster Anda memberikan fitur tambahan berikut untuk men-deploy dan mengelola lingkungan berskala besar ini:
- Penempatan instance VM yang sesuai dengan topologi
- Sistem reservasi lanjutan untuk mengamankan dan mengelola kapasitas
- Grup Instance Terkelola (MIG) yang ditingkatkan dan didesain untuk set instance VM yang besar dan saling bergantung.
- Penjadwalan dan kontrol pemeliharaan lanjutan yang memberikan kontrol lebih besar atas kapan dan bagaimana pemeliharaan terjadi pada instance VM, yang sangat penting untuk workload yang berjalan lama dan sensitif terhadap gangguan. Hal ini mencakup fitur seperti pemeliharaan yang dipicu pelanggan dan pemeliharaan yang dikelompokkan untuk blok resource.
Terminologi cluster
Saat menggunakan blok kapasitas, istilah berikut digunakan:
Ringkasan proses pembuatan cluster dengan VM H4D
Untuk membuat cluster HPC pada blok kapasitas yang dipesan, Anda harus menyelesaikan langkah-langkah berikut:
- Memilih opsi konsumsi dan mendapatkan kapasitas
- Memilih opsi deployment dan pengorkestrasi
- Pilih sistem operasi atau image cluster
- Buat cluster Anda
Memilih opsi konsumsi dan mendapatkan kapasitas
Opsi penggunaan menentukan cara resource diperoleh untuk cluster Anda. Untuk membuat cluster dengan fitur pengelolaan yang ditingkatkan, Anda harus meminta blok kapasitas untuk deployment padat.
Tabel berikut merangkum perbedaan utama antara opsi penggunaan untuk blok kapasitas:
Opsi konsumsi | Pemesanan untuk masa mendatang untuk blok kapasitas | Flex-start (Pratinjau) |
---|---|---|
Karakteristik workload | Workload terdistribusi berskala besar yang berjalan lama dan memerlukan resource yang dialokasikan secara padat | Workload berdurasi singkat yang memerlukan resource yang dialokasikan secara padat |
Masa pakai | Kapan saja | Hingga 7 hari |
Preemptible | Tidak | Tidak |
Kuota | Pastikan Anda memiliki kuota yang cukup sebelum membuat instance. | Kuota preemptible dikenai biaya. |
Harga |
|
|
Alokasi resource | Padat | Padat |
Model penyediaan | Terikat dengan reservasi | Flex-start (Pratinjau) |
Metode pembuatan | Untuk membuat cluster dan VM HPC, Anda harus melakukan hal berikut:
|
Untuk membuat VM, pilih salah satu opsi berikut:
Saat kapasitas yang Anda minta tersedia, Compute Engine akan menyediakannya. |
Memilih opsi deployment
Bergantung pada tingkat kontrol yang Anda butuhkan atas deployment cluster, pilih antara deployment yang dikelola sepenuhnya atau deployment yang kurang dikelola yang memberi Anda lebih banyak kontrol atas infrastruktur. Beberapa opsi deployment yang tersedia mencakup penginstalan dan konfigurasi pengelola untuk pengelolaan cluster HPC yang lebih baik.
- Dikelola secara intensif
Jika Anda ingin Google men-deploy dan menyiapkan infrastruktur Anda, gunakan Cluster Toolkit atau Google Kubernetes Engine (GKE).
Cluster Toolkit: alat open source yang ditawarkan oleh Google yang menyederhanakan konfigurasi dan deployment untuk cluster yang menggunakan Slurm atau GKE. Anda menggunakan blueprint yang telah ditentukan sebelumnya untuk membuat folder deployment yang didasarkan pada blueprint. Anda dapat mengubah blueprint atau folder deployment untuk menyesuaikan deployment dan stack software Anda. Kemudian, Anda menggunakan Terraform atau Packer untuk menjalankan perintah yang dihasilkan oleh Cluster Toolkit untuk men-deploy cluster.
Untuk tutorial tentang metode deployment ini, lihat Membuat cluster Slurm HPC yang mendukung RDMA.
GKE: layanan Kubernetes terkelola dan platform orkestrasi container open source. GKE menawarkan fitur seperti penskalaan otomatis dan ketersediaan tinggi. Fitur-fitur ini menjadikan GKE cocok untuk men-deploy dan mengelola workload HPC, termasuk kemampuannya untuk mengorkestrasi aplikasi yang di-container, dukungan hardware khusus, dan kompatibilitas dengan ekosistem Google Cloud. Anda dapat men-deploy cluster GKE menggunakan GKE secara langsung atau menggunakan Cluster Toolkit. Anda dapat memilih antara edisi Standard atau Autopilot Google Kubernetes Engine (GKE).
Untuk mengetahui informasi selengkapnya tentang metode deployment ini, lihat Menjalankan workload HPC dengan H4D.
- Lebih sedikit dikelola, lebih banyak kontrol
Untuk kontrol yang lebih terperinci atas cluster dan software yang diinstal di dalamnya, buat cluster Compute Engine dengan salah satu metode berikut:
Anda dapat menggunakan metode ini jika ingin menggunakan orkestrator selain Slurm atau GKE. Setelah VM dibuat, Anda menginstal secara manual semua software utama yang dibutuhkan workload HPC Anda di VM. Anda juga dapat menggunakan skrip startup untuk memeriksa penginstalan software secara otomatis dan menginstal software jika diperlukan saat VM dimulai.
Pilih image sistem operasi
Image sistem operasi (OS) yang Anda pilih bergantung pada layanan yang Anda gunakan untuk men-deploy cluster.
Untuk cluster di GKE: Gunakan image node GKE, seperti Container-Optimized OS. Jika Anda menggunakan Cluster Toolkit untuk men-deploy cluster GKE, image Container-Optimized OS akan digunakan secara default. Untuk mengetahui informasi selengkapnya tentang image node, lihat Image node di dokumentasi GKE.
Untuk cluster di Compute Engine: Anda dapat menggunakan salah satu image berikut:
- Image VM HPC: Image Rocky Linux 8 yang dioptimalkan untuk workload HPC yang terkait erat.
- Image OS yang disediakan oleh Google Cloud: Image OS yang mendukung H4D. Anda harus mengonfigurasi setelan ini untuk workload HPC Anda.
- Gambar kustom: Anda dapat membuat dan menggunakan gambar kustom Anda sendiri. Untuk menyertakan pengoptimalan khusus HPC, sebaiknya buat image kustom menggunakan image VM HPC.
Untuk Cluster Slurm: Cluster Toolkit men-deploy Cluster Slurm dengan image VM HPC berbasis Rocky Linux 8 yang dioptimalkan untuk workload HPC yang terkait erat.
Buat cluster HPC Anda
Setelah meninjau proses pembuatan cluster dan membuat keputusan awal untuk workload, buat cluster menggunakan salah satu opsi berikut:
- Membuat cluster Slurm HPC yang mendukung RDMA
- Buat cluster GKE: Menjalankan workload komputasi berperforma tinggi (HPC) dengan H4D
- Buat cluster dengan Compute Engine:
Langkah berikutnya
- Pelajari Cluster Toolkit lebih lanjut.
- Pelajari lebih lanjut cara membuat instance yang menggunakan RDMA.