Dokumen ini memberikan arsitektur referensi yang menunjukkan cara menggunakan Parallelstore untuk mengoptimalkan performa untuk beban kerja kecerdasan buatan (AI) atau machine learning (ML). Parallelstore adalah layanan penyimpanan sistem file paralel yang membantu Anda mengurangi biaya, meningkatkan penggunaan resource, dan mempercepat waktu pelatihan untuk beban kerja AI dan ML.
Audiens yang dituju untuk dokumen ini mencakup arsitek dan praktisi teknis yang mendesain, menyediakan, dan mengelola penyimpanan untuk workload AI dan ML mereka di Google Cloud. Dokumen ini mengasumsikan bahwa Anda memiliki pemahaman tentang siklus proses, proses, dan kemampuan ML.
Parallelstore adalah sistem file scratch berperforma tinggi dan terkelola sepenuhnya di Google Cloud yang dibuat berdasarkan arsitektur Distributed Asynchronous Object Storage (DAOS). Parallelstore ideal untuk beban kerja AI dan ML yang menggunakan kapasitas penyimpanan hingga 100 TiB dan yang perlu menyediakan akses latensi rendah (sub-milidetik) dengan throughput tinggi dan operasi input/output per detik (IOPS) yang tinggi.
Parallelstore menawarkan beberapa keunggulan untuk workload AI dan ML, seperti berikut:
- Menurunkan total biaya kepemilikan (TCO) untuk pelatihan: Parallelstore mempercepat waktu pelatihan dengan mengirimkan data secara efisien ke node komputasi. Fungsi ini membantu mengurangi total biaya kepemilikan untuk pelatihan model AI dan ML.
- TCO yang lebih rendah untuk penayangan: Kemampuan performa tinggi Parallelstore memungkinkan pemuatan model yang lebih cepat dan penayangan inferensi yang dioptimalkan. Kemampuan ini membantu menurunkan biaya komputasi dan meningkatkan penggunaan resource.
- Pemanfaatan resource yang efisien: Parallelstore memungkinkan Anda menggabungkan pelatihan, pembuatan checkpoint, dan penayangan dalam satu instance. Penggunaan resource ini membantu memaksimalkan penggunaan throughput baca dan tulis yang efisien dalam satu sistem penyimpanan berperforma tinggi.
Arsitektur
Diagram berikut menunjukkan contoh arsitektur untuk menggunakan Parallelstore guna mengoptimalkan performa beban kerja pelatihan model dan beban kerja penyaluran:
Beban kerja yang ditampilkan dalam arsitektur sebelumnya dijelaskan secara mendetail di bagian selanjutnya. Arsitektur ini mencakup komponen berikut:
Komponen | Tujuan |
---|---|
Cluster Google Kubernetes Engine (GKE) | GKE mengelola host komputasi tempat proses pelatihan dan penayangan model AI dan ML Anda dijalankan. GKE mengelola infrastruktur pokok cluster, termasuk bidang kontrol, node, dan semua komponen sistem. |
Penjadwal Kubernetes | Bidang kontrol GKE menjadwalkan workload serta mengelola siklus proses, penskalaan, dan upgrade-nya. Agen node Kubernetes (kubelet ), yang tidak ditampilkan dalam diagram, berkomunikasi dengan bidang kontrol. kubelet bertanggung jawab untuk memulai dan
menjalankan container yang dijadwalkan di node GKE.
Anda dapat men-deploy GPU untuk workload batch dan AI
dengan Dynamic Workload Scheduler, yang memungkinkan Anda meminta GPU tanpa komitmen
yang besar. Untuk mengetahui informasi selengkapnya tentang penjadwal, lihat Orkestrasi AI/ML di GKE. |
Jaringan Virtual Private Cloud (VPC) | Semua Google Cloud resource yang ada dalam arsitektur menggunakan satu jaringan VPC. Bergantung pada persyaratan, Anda dapat memilih untuk membuat arsitektur yang menggunakan beberapa jaringan. Untuk informasi selengkapnya tentang cara mengonfigurasi jaringan VPC untuk Parallelstore, lihat Mengonfigurasi jaringan VPC. |
Cloud Load Balancing | Dalam arsitektur ini, Cloud Load Balancing mendistribusikan permintaan inferensi masuk dari pengguna aplikasi ke penampung penayangan di cluster GKE secara efisien. Penggunaan Cloud Load Balancing membantu memastikan ketersediaan, skalabilitas, dan performa yang tinggi untuk aplikasi AI dan ML. Untuk mengetahui informasi selengkapnya, lihat Memahami load balancing GKE. |
Unit Pemrosesan Grafis (GPU) atau Tensor Processing Unit (TPU) | GPU dan TPU adalah akselerator mesin khusus yang meningkatkan performa workload AI dan ML Anda. Untuk mengetahui informasi selengkapnya tentang cara memilih jenis prosesor yang sesuai, lihat Opsi akselerator nanti dalam dokumen ini. |
Parallelstore | Parallelstore mempercepat pelatihan dan penayangan AI dan ML dengan menyediakan sistem file paralel berperforma tinggi yang dioptimalkan untuk latensi rendah dan throughput tinggi. Dibandingkan dengan menggunakan Cloud Storage saja, penggunaan Parallelstore secara signifikan mengurangi waktu pelatihan dan meningkatkan responsivitas model Anda selama penayangan. Peningkatan ini terutama diwujudkan dalam beban kerja yang menuntut yang memerlukan akses cepat dan konsisten ke data bersama. |
Cloud Storage | Cloud Storage menyediakan penyimpanan persisten dan hemat biaya untuk beban kerja AI dan ML Anda. Cloud Storage berfungsi sebagai repositori pusat untuk set data pelatihan mentah, titik pemeriksaan model, dan model akhir yang dilatih. Menggunakan Cloud Storage membantu memastikan ketahanan data, ketersediaan jangka panjang, dan efisiensi biaya untuk data yang tidak secara aktif digunakan dalam komputasi. |
Beban kerja pelatihan
Dalam arsitektur sebelumnya, berikut adalah langkah-langkah dalam alur data selama pelatihan model:
- Mengupload data pelatihan ke Cloud Storage: Anda mengupload data pelatihan ke bucket Cloud Storage, yang berfungsi sebagai repositori pusat dan sumber tepercaya yang aman dan skalabel.
- Menyalin data ke Parallelstore: Korpus data pelatihan ditransfer melalui impor API massal ke instance Parallelstore dari Cloud Storage. Dengan mentransfer data pelatihan, Anda dapat memanfaatkan kemampuan sistem file berperforma tinggi Parallelstore untuk mengoptimalkan kecepatan pemuatan dan pemrosesan data selama pelatihan model.
- Menjalankan tugas pelatihan di GKE: Proses pelatihan model berjalan di node GKE. Dengan menggunakan Parallelstore sebagai sumber data, bukan memuat data langsung dari Cloud Storage, node GKE dapat mengakses dan memuat data pelatihan dengan kecepatan dan efisiensi yang meningkat secara signifikan. Menggunakan Parallelstore membantu mengurangi waktu pemuatan data dan mempercepat proses pelatihan secara keseluruhan, terutama untuk set data besar dan model yang kompleks. Bergantung pada persyaratan workload, Anda dapat menggunakan GPU atau TPU. Untuk mengetahui informasi tentang cara memilih jenis prosesor yang sesuai, lihat Opsi akselerator nanti dalam dokumen ini.
- Menyimpan checkpoint pelatihan ke Parallelstore: Selama proses pelatihan, checkpoint disimpan ke Parallelstore berdasarkan metrik atau interval yang Anda tentukan. Pos pemeriksaan merekam status model secara berkala.
- Menyimpan checkpoint dan model ke Cloud Storage: Sebaiknya
gunakan
ekspor API massal dari instance Parallelstore
untuk
menyimpan beberapa checkpoint
dan model yang dilatih ke Cloud Storage. Praktik ini memastikan
toleransi error dan memungkinkan kasus penggunaan di masa mendatang seperti melanjutkan pelatihan dari
titik tertentu, men-deploy model untuk produksi, dan melakukan eksperimen
lebih lanjut. Sebagai praktik terbaik, simpan titik pemeriksaan di bucket yang berbeda
dari data pelatihan Anda.
- Merestorasi checkpoint atau model: Jika alur kerja AI dan ML Anda memerlukan Anda untuk memulihkan checkpoint atau data model, Anda harus menemukan aset yang ingin dipulihkan di Cloud Storage. Pilih aset yang akan dipulihkan berdasarkan stempel waktu, metrik performa, atau versi tertentu. Gunakan impor API untuk mentransfer aset dari Cloud Storage ke Parallelstore, lalu muat aset ke penampung pelatihan Anda. Kemudian, Anda dapat menggunakan checkpoint atau model yang dipulihkan untuk melanjutkan pelatihan, menyesuaikan parameter, atau mengevaluasi performa pada set validasi.
Menayangkan workload
Dalam arsitektur sebelumnya, berikut adalah langkah-langkah dalam alur data selama penayangan model:
- Memuat model untuk ditayangkan: Setelah pelatihan selesai, pod Anda akan memuat model yang dilatih ke node penayangan. Jika instance Parallelstore yang Anda gunakan selama pelatihan memiliki kapasitas IOPS yang memadai, Anda dapat mempercepat pemuatan model dan mengurangi biaya dengan menggunakan instance pelatihan untuk menayangkan model. Menggunakan kembali instance pelatihan memungkinkan berbagi resource yang efisien antara pelatihan dan penayangan. Namun, untuk mempertahankan performa dan kompatibilitas yang optimal, gunakan jenis akselerator (GPU atau TPU) untuk pelatihan yang konsisten dengan jenis akselerator yang tersedia di node GKE yang melakukan penayangan.
- Permintaan inferensi: Pengguna aplikasi mengirim permintaan inferensi melalui aplikasi AI dan ML. Permintaan ini diarahkan ke layanan Cloud Load Balancing. Cloud Load Balancing mendistribusikan permintaan masuk ke seluruh penampung penayangan di cluster GKE. Distribusi ini memastikan bahwa tidak ada satu penampung yang kewalahan dan permintaan diproses secara efisien.
- Menayangkan permintaan inferensi: Selama produksi, sistem menangani permintaan inferensi secara efisien dengan memanfaatkan cache penayangan model. Node komputasi berinteraksi dengan cache dengan terlebih dahulu memeriksa perkiraan yang cocok. Jika prediksi yang cocok ditemukan, prediksi tersebut akan ditampilkan secara langsung, yang membantu mengoptimalkan waktu respons dan penggunaan resource. Jika tidak, model akan memproses permintaan, membuat prediksi, dan menyimpannya dalam cache untuk efisiensi di masa mendatang.
- Pengiriman respons: Penampung penayangan mengirim respons kembali melalui Cloud Load Balancing. Cloud Load Balancing merutekan respons kembali ke pengguna aplikasi yang sesuai, yang menyelesaikan siklus permintaan inferensi.
Produk yang digunakan
Arsitektur referensi ini menggunakan produk Google Cloud berikut:
- Virtual Private Cloud (VPC): Sistem virtual yang menyediakan fungsi jaringan global dan skalabel untuk Google Cloud workload Anda. VPC mencakup Peering Jaringan VPC, Private Service Connect, akses layanan pribadi, dan VPC Bersama.
- Google Kubernetes Engine (GKE): Layanan Kubernetes yang dapat Anda gunakan untuk men-deploy dan mengoperasikan aplikasi dalam container dalam skala besar menggunakan infrastruktur Google.
- Cloud Storage: Penyimpanan objek berbiaya rendah tanpa batas untuk berbagai jenis data. Data dapat diakses dari dalam dan luar Google Cloud, dan data tersebut direplikasi di seluruh lokasi untuk redundansi.
- Parallelstore: Sistem file paralel yang dikelola sepenuhnya untuk AI, komputasi berperforma tinggi (HPC), dan aplikasi yang intensif data.
Kasus penggunaan
Parallelstore ideal untuk beban kerja AI dan ML dengan kapasitas penyimpanan hingga 100 TiB dan yang perlu menyediakan akses latensi rendah (sub-milidetik) dengan throughput tinggi dan IOPS tinggi. Bagian berikut memberikan contoh kasus penggunaan yang dapat Anda gunakan untuk Parallelstore.
Pemrosesan berbasis teks dan pembuatan teks
Model bahasa besar (LLM) adalah model AI khusus yang dirancang khusus untuk memahami dan memproses data berbasis teks. LLM dilatih pada set data teks yang sangat besar, sehingga dapat melakukan berbagai tugas, termasuk terjemahan mesin, menjawab pertanyaan, dan peringkasan teks. Melatih model LLM memerlukan akses latensi rendah ke set data untuk pemrosesan permintaan dan pembuatan teks yang efisien. Parallelstore unggul dalam aplikasi yang intensif data dengan memberikan throughput tinggi dan latensi rendah yang diperlukan untuk pelatihan dan inferensi, sehingga menghasilkan aplikasi yang lebih responsif dengan LLM.
Pemrosesan gambar atau video beresolusi tinggi
Aplikasi AI dan ML tradisional atau model generatif multi-modal yang memproses gambar atau video beresolusi tinggi, seperti analisis pencitraan medis atau sistem mengemudi otonom, memerlukan kapasitas penyimpanan yang besar dan akses data yang cepat. Sistem file scratch berperforma tinggi Parallelstore memungkinkan pemuatan data yang cepat untuk mempercepat performa aplikasi. Misalnya, Parallelstore dapat menyimpan dan memproses data pasien dalam jumlah besar secara sementara, seperti MRI dan CT scan, yang diambil dari Cloud Storage. Fungsi ini memungkinkan model AI dan ML untuk menganalisis data dengan cepat untuk diagnosis dan pengobatan.
Alternatif desain
Bagian berikut menyajikan pendekatan desain alternatif yang dapat Anda pertimbangkan untuk aplikasi AI dan ML di Google Cloud.
Alternatif platform
Daripada menghosting pelatihan model dan alur kerja penayangan di GKE, Anda dapat mempertimbangkan Compute Engine dengan Slurm. Slurm adalah pengelola beban kerja dan resource open source yang sangat dapat dikonfigurasi. Menggunakan Compute Engine dengan Slurm sangat cocok untuk pelatihan dan simulasi model berskala besar. Sebaiknya gunakan Compute Engine dengan Slurm jika Anda perlu mengintegrasikan kekayaan intelektual (IP) AI dan ML eksklusif ke dalam lingkungan yang skalabel dengan fleksibilitas dan kontrol untuk mengoptimalkan performa untuk workload khusus.
Di Compute Engine, Anda menyediakan dan mengelola virtual machine (VM), yang memberi Anda kontrol terperinci atas jenis instance, penyimpanan, dan jaringan. Anda dapat menyesuaikan infrastruktur sesuai kebutuhan Anda yang sebenarnya, termasuk pemilihan jenis mesin VM tertentu. Anda juga dapat menggunakan kelompok mesin yang dioptimalkan akselerator untuk meningkatkan performa dengan workload AI dan ML. Untuk mengetahui informasi selengkapnya tentang kelompok jenis mesin yang tersedia di Compute Engine, lihat Panduan perbandingan dan resource kelompok mesin.
Slurm menawarkan opsi yang canggih untuk mengelola beban kerja AI dan ML serta memungkinkan Anda mengontrol konfigurasi dan pengelolaan resource komputasi. Untuk menggunakan pendekatan ini, Anda memerlukan keahlian dalam administrasi Slurm dan pengelolaan sistem Linux.
Opsi akselerator
Akselerator mesin adalah prosesor khusus yang dirancang untuk mempercepat komputasi yang diperlukan untuk workload AI dan ML. Anda dapat memilih Graphics Processing Unit (GPU) atau Tensor Processing Unit (TPU).
- Akselerator GPU memberikan performa yang sangat baik untuk berbagai tugas, termasuk rendering grafis, pelatihan deep learning, dan komputasi ilmiah. Google Cloud memiliki berbagai pilihan GPU untuk mencocokkan berbagai titik harga dan performa. Untuk mengetahui informasi tentang model dan harga GPU, lihat harga GPU.
- TPU adalah akselerator AI yang dirancang khusus, yang dioptimalkan untuk pelatihan dan inferensi model AI berskala besar. Google Cloud TPU ideal untuk berbagai kasus penggunaan, seperti chatbot, pembuatan kode, pembuatan konten media, ucapan sintetis, layanan visi, mesin rekomendasi, model personalisasi, dan lainnya. Untuk mengetahui informasi selengkapnya tentang model dan harga TPU, lihat harga TPU.
Menayangkan alternatif penyimpanan
Cloud Storage FUSE dengan bucket multi-region atau dual-region memberikan tingkat ketersediaan tertinggi karena model AI dan ML yang dilatih disimpan di Cloud Storage dan beberapa region. Meskipun Cloud Storage FUSE mencapai throughput per VM yang lebih rendah daripada Parallelstore, Cloud Storage FUSE memungkinkan Anda memanfaatkan skalabilitas dan efektivitas biaya Cloud Storage. Untuk mempercepat pemuatan model dan meningkatkan performa, terutama untuk workload yang menuntut, Anda dapat menggunakan instance Parallelstore yang ada atau baru di setiap region. Untuk informasi tentang cara meningkatkan performa dengan Cloud Storage FUSE, lihat Mengoptimalkan driver CSI Cloud Storage FUSE untuk performa GKE.
Google Cloud Hyperdisk ML adalah solusi penyimpanan blok berperforma tinggi yang dirancang untuk mempercepat workload AI dan ML skala besar yang memerlukan akses hanya baca ke set data besar. Hyperdisk ML dapat disediakan dengan throughput gabungan yang lebih tinggi, tetapi mencapai throughput per VM yang lebih rendah dibandingkan dengan Parallelstore.
Selain itu, volume ML Hyperdisk hanya dapat diakses oleh VM GPU atau TPU di zona yang sama. Oleh karena itu, untuk cluster GKE regional yang melayani dari beberapa zona, Anda harus menyediakan volume Hyperdisk ML terpisah di setiap zona. Penempatan ini berbeda dengan Parallelstore, yang hanya memerlukan satu instance per region. Penting juga untuk diperhatikan bahwa Hyperdisk ML bersifat hanya baca. Untuk informasi selengkapnya tentang penggunaan Hyperdisk ML dalam beban kerja AI dan ML, lihat Mempercepat pemuatan data AI/ML dengan Hyperdisk ML.
Pertimbangan desain
Untuk mendesain deployment Parallelstore yang mengoptimalkan performa dan efisiensi biaya workload AI dan ML Anda di Google Cloud, gunakan panduan di bagian berikut. Panduan ini menjelaskan rekomendasi yang perlu dipertimbangkan saat Anda menggunakan Parallelstore sebagai bagian dari solusi campuran yang menggabungkan beberapa opsi penyimpanan untuk tugas tertentu dalam alur kerja Anda.
Pelatihan
Pelatihan model AI dan ML mengharuskan Anda secara iteratif memasukkan data ke model, menyesuaikan parameternya, dan mengevaluasi performanya dengan setiap iterasi. Proses ini dapat memerlukan komputasi yang intensif dan menghasilkan permintaan I/O dalam volume tinggi karena kebutuhan yang konstan untuk membaca data pelatihan dan menulis parameter model yang diperbarui.
Untuk memaksimalkan manfaat performa selama pelatihan, sebaiknya lakukan hal berikut:
- Cache: Gunakan Parallelstore sebagai cache berperforma tinggi di atas Cloud Storage.
- Pengambilan data sebelumnya: Impor data ke Parallelstore dari Cloud Storage untuk meminimalkan latensi selama pelatihan. Anda juga dapat menggunakan GKE Volume Populator untuk mengisi otomatis PersistentVolumesClaims dengan data dari Cloud Storage.
- Pengoptimalan biaya: Mengekspor data ke class Cloud Storage dengan biaya lebih rendah setelah pelatihan untuk meminimalkan biaya penyimpanan jangka panjang. Karena data persisten Anda disimpan di Cloud Storage, Anda dapat menghancurkan dan membuat ulang instance Parallelstore sesuai kebutuhan untuk tugas pelatihan.
- Integrasi GKE: Berintegrasi dengan driver antarmuka penyimpanan container (CSI) GKE untuk pengelolaan yang disederhanakan. Untuk informasi tentang cara menghubungkan cluster GKE ke instance Parallelstore, lihat Driver CSI Parallelstore Google Kubernetes Engine.
- Performa VM A3: Mengirimkan lebih dari 20 GB/s (sekitar 2,5 GB/s per GPU) pada varian A3 untuk pengiriman data yang optimal.
- Akses serentak: Gunakan instance Parallelstore untuk menampung operasi baca dan tulis full duplex.
Saat Anda men-deploy Parallelstore untuk pelatihan, pertimbangkan hal berikut:
- Sistem file scratch: Mengonfigurasi interval pemeriksaan titik kontrol selama proses pelatihan. Parallelstore adalah sistem file sementara, yang berarti data disimpan untuk sementara. Pada rentang 100 TiB, estimasi waktu rata-rata untuk kehilangan data adalah dua bulan. Pada rentang 23 TiB, estimasi waktu rata-rata hingga kehilangan data adalah dua belas bulan atau lebih.
- Striping file dan direktori: Optimalkan striping file dan direktori untuk ukuran file utama Anda guna memaksimalkan performa.
- Pengoptimalan biaya: Optimalkan biaya dengan melakukan staging data di Cloud Storage, bukan di Parallelstore.
- Pemilihan zona: Optimalkan biaya dan performa dengan menempatkan klien komputasi GPU atau TPU dan node penyimpanan di zona yang sama.
Untuk informasi selengkapnya tentang cara mengonfigurasi lingkungan Parallelstore untuk mengoptimalkan performa, lihat Pertimbangan performa.
Checkpoint
Pembuatan checkpoint adalah aspek penting dalam pelatihan model AI dan ML. Pembuatan checkpoint memungkinkan Anda menyimpan status model pada berbagai titik selama proses, sehingga Anda dapat melanjutkan pelatihan dari checkpoint yang disimpan jika terjadi gangguan, kegagalan sistem, atau untuk menjelajahi berbagai konfigurasi hyperparameter. Saat Anda menggunakan Parallelstore untuk pelatihan, Anda juga harus menggunakannya untuk checkpointing guna memanfaatkan throughput tulis yang tinggi dan untuk meminimalkan waktu pelatihan. Pendekatan ini memastikan penggunaan resource yang efisien dan membantu menurunkan TCO untuk resource GPU Anda dengan menjaga pelatihan dan pemeriksaan titik henti sementara secepat mungkin.
Untuk mengoptimalkan alur kerja pembuatan checkpoint dengan Parallelstore, pertimbangkan praktik terbaik berikut:
- Pembuatan checkpoint cepat: Manfaatkan penulisan checkpoint cepat dengan Parallelstore. Anda dapat mencapai throughput 0,5 GB/dtk per kapasitas TiB dan lebih dari 12 GB/dtk per VM A3.
- Penyimpanan titik pemeriksaan selektif: Ekspor titik pemeriksaan yang dipilih dari Parallelstore ke Cloud Storage untuk penyimpanan jangka panjang dan disaster recovery.
- Operasi serentak: Dapatkan manfaat dari dupleks penuh baca dan tulis dengan menggunakan Parallelstore secara bersamaan untuk pelatihan dan penulisan checkpoint.
Aktif
Penyajian melibatkan deployment model AI dan ML terlatih untuk menangani permintaan inferensi. Untuk mencapai performa optimal, penting untuk meminimalkan waktu yang diperlukan untuk memuat model ini ke dalam memori. Meskipun Parallelstore dirancang terutama untuk melatih beban kerja, Anda dapat menggunakan throughput tinggi Parallelstore per VM (lebih dari 20 GB/s) dan throughput cluster gabungan untuk meminimalkan waktu pemuatan model di ribuan VM. Untuk melacak metrik utama yang memungkinkan Anda mengidentifikasi bottleneck dan memastikan efisiensi yang optimal, gunakan Cloud Monitoring.
Saat Anda men-deploy Parallelstore untuk penayangan, pertimbangkan hal berikut:
- Throughput tinggi: Maksimalkan performa Parallelstore dengan menggunakan Cloud Monitoring untuk membantu memastikan bahwa Anda men-deploy kapasitas yang memadai untuk mencapai throughput hingga 125 GB/dtk pada 100 TiB.
- Potensi gangguan layanan: Karena Parallelstore adalah sistem file awal, sistem ini dapat mengalami gangguan layanan sesekali. Rata-rata waktu hingga kehilangan data adalah sekitar 2 bulan untuk cluster 100 TiB.
- Pulihkan data: Jika terjadi gangguan layanan, Anda perlu memulihkan data Parallelstore dari cadangan Cloud Storage terbaru. Data ditransfer dengan kecepatan sekitar 16 GB/s.
- Instance bersama: Menggunakan satu instance Parallelstore untuk pelatihan dan penayangan akan memaksimalkan penggunaan resource dan dapat menghemat biaya. Namun, dapat terjadi potensi pertentangan resource jika kedua beban kerja memiliki permintaan throughput yang tinggi. Jika IOPS cadangan tersedia setelah pelatihan, menggunakan instance yang sama dapat mempercepat pemuatan model untuk penayangan. Gunakan Cloud Monitoring untuk membantu memastikan bahwa Anda mengalokasikan resource yang memadai untuk memenuhi permintaan throughput.
- Instance terpisah: Menggunakan instance terpisah memberikan isolasi performa, meningkatkan keamanan dengan mengisolasi data pelatihan, dan meningkatkan perlindungan data. Meskipun daftar kontrol akses dapat mengelola keamanan dalam satu instance, instance terpisah menawarkan batas keamanan yang lebih andal.
Opsi penempatan
Untuk meminimalkan latensi dan memaksimalkan performa, buat instance Parallelstore di region yang secara geografis dekat dengan klien komputasi GPU atau TPU Anda.
- Untuk pelatihan dan pembuatan checkpoint: Untuk hasil yang optimal, pastikan klien dan instance Parallelstore berada di zona yang sama. Kolokasi ini meminimalkan waktu transfer data dan memaksimalkan penggunaan throughput operasi tulis Parallelstore.
- Untuk penayangan: Meskipun menempatkan bersama klien komputasi di zona yang sama adalah ideal, memiliki satu instance Parallelstore per region sudah memadai. Pendekatan ini menghindari biaya tambahan yang terkait dengan deployment beberapa instance dan membantu memaksimalkan performa komputasi. Namun, jika memerlukan kapasitas atau throughput tambahan, Anda dapat mempertimbangkan untuk men-deploy lebih dari satu instance per region.
Men-deploy Parallelstore di dua region dapat meningkatkan performa secara signifikan dengan menjaga data secara geografis lebih dekat ke GPU atau TPU yang digunakan untuk penayangan. Penempatan ini mengurangi latensi dan memungkinkan akses data yang lebih cepat selama inferensi. Jika terjadi pemadaman layanan regional, aplikasi pelatihan dan penayangan tidak akan tersedia bagi pengguna.
Untuk memastikan ketersediaan dan keandalan tinggi, Anda harus membuat instance replika arsitektur ini di region lain. Saat Anda membuat arsitektur redundan geografis, aplikasi AI dan ML dapat terus beroperasi meskipun satu region mengalami pemadaman layanan. Untuk mencadangkan dan memulihkan data cluster dan data Cloud Storage serta memulihkannya di region lain sesuai kebutuhan, Anda dapat menggunakan Pencadangan untuk GKE.
Untuk mengetahui informasi tentang lokasi yang didukung untuk instance Parallelstore, lihat Lokasi yang didukung.
Deployment
Untuk membuat dan men-deploy arsitektur referensi ini, sebaiknya gunakan Cluster Toolkit. Cluster Toolkit adalah toolkit modular berbasis Terraform yang dirancang untuk deployment lingkungan AI dan ML yang dapat diulang di Google Cloud. Untuk menentukan lingkungan Anda, gunakan blueprint pelatihan GKE dan Parallelstore. Untuk menyediakan dan mengelola instance Parallelstore untuk cluster Anda, lihat modul Parallelstore.
Untuk mengetahui informasi tentang cara men-deploy Parallestore secara manual, lihat Membuat instance Parallelstore. Untuk lebih meningkatkan skalabilitas dan meningkatkan performa dengan penyediaan dinamis, Anda dapat membuat dan menggunakan volume yang didukung oleh instance Parallelstore di GKE.
Langkah selanjutnya
- Pelajari lebih lanjut cara menggunakan sistem file paralel untuk workload HPC.
- Pelajari lebih lanjut praktik terbaik untuk menerapkan machine learning di Google Cloud.
- Pelajari lebih lanjut cara mendesain penyimpanan untuk workload AI dan ML di Google Cloud.
- Pelajari lebih lanjut cara melatih model TensorFlow dengan Keras di GKE.
- Untuk mengetahui lebih banyak tentang arsitektur referensi, diagram, dan praktik terbaik lainnya, jelajahi Pusat Arsitektur Cloud.
Kontributor
Penulis: Samantha He | Technical Writer
Kontributor lainnya:
- Dean Hildebrand | Technical Director, Office of the CTO
- Kumar Dhanagopal | Developer Solusi Lintas Produk
- Sean Derrington | Group Outbound Product Manager, Storage