Tentang GKE Volume Populator


Pengisi Volume Google Kubernetes Engine (GKE) dapat membantu Anda mengotomatiskan dan menyederhanakan proses pemuatan data dari bucket Cloud Storage ke PersistentVolumeClaims (PVC) tujuan selama penyediaan dinamis.

Cara kerja Pengisi Volume GKE

Pengisi Volume GKE memanfaatkan konsep inti Pengisi Volume Kubernetes. Daripada menyediakan volume kosong, Pengisi Volume GKE memungkinkan PVC mereferensikan resource kustom GCPDataSource. Resource kustom ini menentukan bucket Cloud Storage sumber dan kredensial yang diperlukan.

Saat Anda membuat PVC dengan dataSourceRef yang mengarah ke resource GCPDataSource, Pengisi Volume GKE akan memulai transfer data. Proses ini menyalin data dari URI bucket Cloud Storage yang ditentukan ke volume penyimpanan persisten pokok sebelum membuat volume tersedia untuk Pod Anda.

Proses ini mengurangi kebutuhan Anda untuk menggunakan skrip transfer data manual atau perintah CLI, dan mengotomatiskan transfer set data besar ke volume persisten. Pengisi Volume GKE mendukung transfer data antara jenis sumber dan tujuan berikut:

Pengisi Volume GKE adalah komponen yang dikelola GKE yang diaktifkan secara default di cluster Autopilot dan Standard. Anda terutama berinteraksi dengan GKE Volume Populator melalui gcloud CLI dan kubectl CLI.

Arsitektur

Diagram berikut menunjukkan cara data mengalir dari penyimpanan sumber ke penyimpanan tujuan, dan cara PersistentVolume untuk penyimpanan tujuan dibuat menggunakan GKE Volume Populator.

  1. Anda membuat PVC yang mereferensikan resource kustom GCPDataSource.
  2. Pengisi Volume GKE mendeteksi PVC dan memulai Tugas transfer data.
  3. Job transfer berjalan di node pool yang ada, atau node pool baru dibuat jika penyediaan otomatis node diaktifkan.
  4. Tugas transfer menyalin data dari bucket Cloud Storage yang ditentukan dalam resource GCPDataSource ke volume penyimpanan tujuan.
  5. Setelah transfer selesai, PVC akan terikat ke volume penyimpanan tujuan, sehingga data tersedia untuk Pod workload.

Transfer data dari penyimpanan data sumber dan pembuatan PV untuk penyimpanan tujuan menggunakan GKE Volume Populator

Manfaat utama

Pengisi Volume GKE menawarkan beberapa manfaat:

  • Pengisian data otomatis: mengisi volume secara otomatis dengan data dari Cloud Storage selama penyediaan, yang membantu mengurangi overhead operasional.
  • Portabilitas data yang lancar: pindahkan data dari penyimpanan objek ke sistem penyimpanan file (Parallelstore) atau block storage (Hyperdisk) berperforma tinggi untuk membantu mengoptimalkan harga atau performa berdasarkan kebutuhan workload Anda.
  • Alur kerja yang disederhanakan: mengurangi kebutuhan akan Tugas pemuatan data terpisah, atau intervensi manual untuk menyiapkan volume persisten.
  • Integrasi dengan Identity and Access Management (IAM): gunakan autentikasi berbasis IAM melalui Workload Identity Federation for GKE untuk membantu memastikan transfer data yang aman dengan kontrol akses terperinci.
  • Workload AI/ML yang dipercepat: memuat data, model, dan bobot dalam jumlah besar dengan cepat langsung ke penyimpanan berperforma tinggi untuk membantu mempercepat tugas pelatihan dan inferensi.

Kasus penggunaan untuk GKE Volume Populator

Anda dapat menggunakan GKE Volume Populator untuk memuat set data pelatihan besar untuk AI/ML. Bayangkan Anda memiliki set data multi-terabyte untuk melatih model bahasa besar (LLM) yang disimpan di bucket Cloud Storage. Tugas pelatihan Anda berjalan di GKE dan memerlukan performa I/O yang tinggi. Daripada menyalin data secara manual, Anda dapat menggunakan GKE Volume Populator untuk menyediakan volume Parallelstore atau Hyperdisk ML secara otomatis, dan mengisinya dengan set data dari Cloud Storage saat PVC dibuat. Proses otomatis ini membantu memastikan bahwa Pod pelatihan Anda dimulai dengan akses berkecepatan tinggi dan langsung ke data.

Berikut beberapa contoh lagi tempat Anda dapat menggunakan Pengisi Volume GKE:

  • Melakukan pra-peng-cache-an bobot dan aset model AI/ML dari Cloud Storage ke volume ML Hyperdisk untuk mempercepat waktu pemuatan model untuk penayangan inferensi.
  • Memigrasikan data dari Cloud Storage ke volume persisten untuk aplikasi stateful yang memerlukan akses disk berperforma tinggi.

Langkah berikutnya