Ringkasan pembuatan cluster HPC


Untuk membuat infrastruktur bagi aplikasi yang terhubung erat dan dapat diskalakan di beberapa node, Anda dapat membuat cluster instance virtual machine (VM). Panduan ini memberikan ringkasan tingkat tinggi tentang pertimbangan dan langkah-langkah utama untuk mengonfigurasi cluster instance virtual machine (VM) untuk workload komputasi berperforma tinggi (HPC) menggunakan alokasi resource padat.

Compute Engine menyediakan berbagai cara untuk membuat banyak instance VM yang terhubung ke jaringan yang sama, tetapi tidak memerlukan alokasi resource yang padat. Misalnya, Anda dapat menggunakan salah satu metode berikut, yang dibahas di tempat lain dalam dokumentasi Compute Engine:

Anda juga dapat membuat skrip yang menyertakan perintah untuk membuat instance individual dan mengaitkan kebijakan penempatan ringkas dengan instance untuk mengurangi latensi.

Dengan H4D (Pratinjau), Compute Engine menambahkan dukungan untuk menjalankan workload HPC yang sangat besar dengan memperlakukan seluruh cluster instance VM sebagai satu komputer. Dengan menggunakan penempatan VM yang mendukung topologi, Anda dapat mengakses banyak instance dalam satu superblock jaringan dan meminimalkan latensi jaringan. Anda juga dapat mengonfigurasi Cloud RDMA di instance ini untuk memaksimalkan performa komunikasi antar-node, yang sangat penting untuk workload HPC dengan pengaitan erat.

Anda membuat cluster VM HPC ini dengan H4D dengan mencadangkan blok kapasitas, bukan resource individual. Menggunakan blok kapasitas untuk cluster Anda memberikan fitur tambahan berikut untuk men-deploy dan mengelola lingkungan berskala besar ini:

  • Penempatan instance VM yang sesuai dengan topologi
  • Sistem reservasi lanjutan untuk mengamankan dan mengelola kapasitas
  • Grup Instance Terkelola (MIG) yang ditingkatkan dan didesain untuk set instance VM yang besar dan saling bergantung.
  • Penjadwalan dan kontrol pemeliharaan lanjutan yang memberikan kontrol lebih besar atas kapan dan bagaimana pemeliharaan terjadi pada instance VM, yang sangat penting untuk workload yang berjalan lama dan sensitif terhadap gangguan. Hal ini mencakup fitur seperti pemeliharaan yang dipicu pelanggan dan pemeliharaan yang dikelompokkan untuk blok resource.

Terminologi cluster

Saat menggunakan blok kapasitas, istilah berikut digunakan:

Blokir
Beberapa sub-blok saling terhubung dengan fabric non-blocking, sehingga menyediakan interkoneksi bandwidth tinggi. CPU apa pun dalam blok dapat dijangkau dalam maksimum dua hop jaringan. Sistem mengekspos metadata blok dan sub-blok ke orkestrator untuk memungkinkan penempatan tugas yang optimal.
Cluster
Beberapa blok saling terhubung untuk membentuk cluster yang dapat diskalakan hingga ribuan CPU untuk menjalankan workload HPC berskala besar. Setiap cluster bersifat unik secara global. Komunikasi di seluruh blok yang berbeda hanya menambahkan satu hop tambahan, sehingga mempertahankan performa dan prediktabilitas yang tinggi, bahkan pada skala yang sangat besar. Metadata tingkat cluster juga tersedia untuk orkestrator untuk penempatan tugas cerdas dalam skala besar.
Deployment padat
Permintaan resource yang mengalokasikan resource akselerator Anda secara fisik berdekatan satu sama lain untuk meminimalkan hop jaringan dan mengoptimalkan latensi terendah.
Fabric jaringan
Network fabric menyediakan konektivitas berlatensi rendah dan bandwidth tinggi di semua blok dan layanan dalam cluster. Google Cloud Jupiter adalah arsitektur jaringan pusat data Google yang memanfaatkan jaringan yang ditentukan software dan switch sirkuit optik untuk mengembangkan jaringan dan mengoptimalkan performanya.
Node atau host
Satu mesin server fisik di pusat data. Setiap host memiliki resource komputasi terkait, yaitu CPU, memori, dan antarmuka jaringan. Jumlah dan konfigurasi resource komputasi ini bergantung pada kelompok mesin. Instance VM disediakan di atas host fisik.
Orchestrator
Orchestrator mengotomatiskan pengelolaan cluster Anda. Dengan orkestrator, Anda tidak perlu mengelola setiap instance VM di cluster. Pengorkestrasi, seperti Slurm atau Google Kubernetes Engine (GKE), menangani tugas seperti pengantrean tugas, alokasi resource, penskalaan otomatis (dengan GKE), dan tugas pengelolaan cluster sehari-hari lainnya.
Sub-blok
Unit ini adalah unit dasar tempat sekelompok host secara fisik berada di satu rak. Switch Top-of-Rack (ToR) menghubungkan host ini, sehingga memungkinkan komunikasi satu hop yang sangat efisien antara dua CPU dalam sub-blok. Cloud RDMA memfasilitasi komunikasi langsung ini.

Ringkasan proses pembuatan cluster dengan VM H4D

Untuk membuat cluster HPC pada blok kapasitas yang dipesan, Anda harus menyelesaikan langkah-langkah berikut:

  1. Memilih opsi konsumsi dan mendapatkan kapasitas
  2. Memilih opsi deployment dan pengorkestrasi
  3. Pilih sistem operasi atau image cluster
  4. Buat cluster Anda

Memilih opsi konsumsi dan mendapatkan kapasitas

Opsi penggunaan menentukan cara resource diperoleh untuk cluster Anda. Untuk membuat cluster dengan fitur pengelolaan yang ditingkatkan, Anda harus meminta blok kapasitas untuk deployment padat.

Tabel berikut merangkum perbedaan utama antara opsi penggunaan untuk blok kapasitas:

Opsi konsumsi Pemesanan untuk masa mendatang untuk blok kapasitas Flex-start (Pratinjau)
Karakteristik workload Workload terdistribusi berskala besar yang berjalan lama dan memerlukan resource yang dialokasikan secara padat Workload berdurasi singkat yang memerlukan resource yang dialokasikan secara padat
Masa pakai Kapan saja Hingga 7 hari
Preemptible Tidak Tidak
Kuota Pastikan Anda memiliki kuota yang cukup sebelum membuat instance. Kuota preemptible dikenai biaya.
Harga
Alokasi resource Padat Padat
Model penyediaan Terikat dengan reservasi Flex-start (Pratinjau)
Metode pembuatan Untuk membuat cluster dan VM HPC, Anda harus melakukan hal berikut:
  1. Pesan kapasitas dengan menghubungi tim akun Anda.
  2. Pada tanggal dan waktu yang Anda pilih, Anda dapat menggunakan kapasitas yang dicadangkan untuk membuat cluster HPC. Lihat Memilih opsi deployment.
Untuk membuat VM, pilih salah satu opsi berikut:

Saat kapasitas yang Anda minta tersedia, Compute Engine akan menyediakannya.

Memilih opsi deployment

Bergantung pada tingkat kontrol yang Anda butuhkan atas deployment cluster, pilih antara deployment yang dikelola sepenuhnya atau deployment yang kurang dikelola yang memberi Anda lebih banyak kontrol atas infrastruktur. Beberapa opsi deployment yang tersedia mencakup penginstalan dan konfigurasi pengelola untuk pengelolaan cluster HPC yang lebih baik.

Dikelola secara intensif

Jika Anda ingin Google men-deploy dan menyiapkan infrastruktur Anda, gunakan Cluster Toolkit atau Google Kubernetes Engine (GKE).

  • Cluster Toolkit: alat open source yang ditawarkan oleh Google yang menyederhanakan konfigurasi dan deployment untuk cluster yang menggunakan Slurm atau GKE. Anda menggunakan blueprint yang telah ditentukan sebelumnya untuk membuat folder deployment yang didasarkan pada blueprint. Anda dapat mengubah blueprint atau folder deployment untuk menyesuaikan deployment dan stack software Anda. Kemudian, Anda menggunakan Terraform atau Packer untuk menjalankan perintah yang dihasilkan oleh Cluster Toolkit untuk men-deploy cluster.

    Untuk tutorial tentang metode deployment ini, lihat Membuat cluster Slurm HPC yang mendukung RDMA.

  • GKE: layanan Kubernetes terkelola dan platform orkestrasi container open source. GKE menawarkan fitur seperti penskalaan otomatis dan ketersediaan tinggi. Fitur-fitur ini menjadikan GKE cocok untuk men-deploy dan mengelola workload HPC, termasuk kemampuannya untuk mengorkestrasi aplikasi yang di-container, dukungan hardware khusus, dan kompatibilitas dengan ekosistem Google Cloud. Anda dapat men-deploy cluster GKE menggunakan GKE secara langsung atau menggunakan Cluster Toolkit. Anda dapat memilih antara edisi Standard atau Autopilot Google Kubernetes Engine (GKE).

    Untuk mengetahui informasi selengkapnya tentang metode deployment ini, lihat Menjalankan workload HPC dengan H4D.

Lebih sedikit dikelola, lebih banyak kontrol

Untuk kontrol yang lebih terperinci atas cluster dan software yang diinstal di dalamnya, buat cluster Compute Engine dengan salah satu metode berikut:

Anda dapat menggunakan metode ini jika ingin menggunakan orkestrator selain Slurm atau GKE. Setelah VM dibuat, Anda menginstal secara manual semua software utama yang dibutuhkan workload HPC Anda di VM. Anda juga dapat menggunakan skrip startup untuk memeriksa penginstalan software secara otomatis dan menginstal software jika diperlukan saat VM dimulai.

Pilih image sistem operasi

Image sistem operasi (OS) yang Anda pilih bergantung pada layanan yang Anda gunakan untuk men-deploy cluster.

  • Untuk cluster di GKE: Gunakan image node GKE, seperti Container-Optimized OS. Jika Anda menggunakan Cluster Toolkit untuk men-deploy cluster GKE, image Container-Optimized OS akan digunakan secara default. Untuk mengetahui informasi selengkapnya tentang image node, lihat Image node di dokumentasi GKE.

  • Untuk cluster di Compute Engine: Anda dapat menggunakan salah satu image berikut:

  • Untuk Cluster Slurm: Cluster Toolkit men-deploy Cluster Slurm dengan image VM HPC berbasis Rocky Linux 8 yang dioptimalkan untuk workload HPC yang terkait erat.

Buat cluster HPC Anda

Setelah meninjau proses pembuatan cluster dan membuat keputusan awal untuk workload, buat cluster menggunakan salah satu opsi berikut:

Langkah berikutnya