Halaman ini menjelaskan cara menskalakan layanan secara manual. Tutorial ini juga memberikan petunjuk untuk kasus penggunaan umum, mengubah jumlah instance berdasarkan jadwal menggunakan tugas Cloud Scheduler dan Cloud Run Admin API.
Ringkasan
Secara default, Cloud Run secara otomatis menskalakan ke jumlah maksimum instance yang ditentukan atau default, bergantung pada traffic dan penggunaan CPU. Namun, untuk beberapa kasus penggunaan, Anda mungkin ingin memiliki kemampuan untuk menetapkan jumlah instance tertentu, menggunakan penskalaan manual.
Penskalaan manual memungkinkan Anda menetapkan jumlah instance tertentu, terlepas dari traffic atau penggunaan, dan tanpa memerlukan deployment ulang. Semua ini memberi Anda opsi untuk menulis logika penskalaan Anda sendiri menggunakan sistem eksternal. Lihat Penskalaan berbasis jadwal untuk mengetahui contohnya.
Beralih antara penskalaan otomatis dan manual
Mengubah mode penskalaan akan memengaruhi jumlah instance dan setelan instance minimum dan maksimum tingkat layanan seperti yang ditunjukkan dalam tabel berikut:
Menskalakan arah tombol | Jumlah instance | Instance minimum dan maksimum |
---|---|---|
Dari otomatis ke manual | Jika jumlah instance tidak ditentukan dalam perintah yang mengalihkan mode, warisi setelan instance minimum tingkat layanan. | Setelah beralih, instance minimum dan maksimum tingkat layanan tidak ditetapkan. |
Dari manual ke otomatis | Jumlah instance manual tidak ditetapkan | Anda harus menentukan kedua instance minimum dan maksimum tingkat layanan, atau tidak satu pun dari keduanya. (Menentukan hanya satu akan menampilkan error.) Jika Anda menentukan tidak satu pun dari keduanya dalam perintah yang mengalihkan mode, instance minimum dan maksimum tingkat layanan akan mewarisi jumlah instance manual. |
Setelan minimum dan maksimum tingkat revisi serta penskalaan manual
Jika Anda menetapkan layanan ke penskalaan manual, setelan instance maksimum dan minimum tingkat revisi akan diabaikan.
Pembagian traffic untuk penskalaan manual
Daftar berikut menjelaskan cara instance dialokasikan saat membagi traffic dalam penskalaan manual. Hal ini mencakup perilaku untuk revisi khusus tag traffic.
Selama pembagian traffic, setiap revisi dialokasikan instance secara proporsional, berdasarkan pembagian traffic, mirip dengan pembagian traffic dengan instance minimum tingkat layanan.
Jika jumlah revisi yang menerima traffic melebihi jumlah instance manual, beberapa revisi tidak akan memiliki instance. Traffic yang dikirim ke revisi tersebut akan mendapatkan error yang sama seperti jika revisi dinonaktifkan.
Untuk semua revisi yang menerima traffic dalam pembagian traffic, instance minimum dan maksimum level revisi akan dinonaktifkan.
Jika revisi aktif hanya karena tag traffic:
- Jika instance minimum tingkat revisi ditetapkan, jumlah instance yang ditentukan akan dimulai, tetapi tidak dihitung dalam total jumlah instance manual layanan. Revisi tidak akan diskalakan secara otomatis.
- Jika instance minimum tingkat revisi tidak ditetapkan, revisi akan diskalakan ke maksimal satu instance, sebagai respons terhadap traffic yang dikirim ke URL tag.
Perilaku penagihan menggunakan penskalaan manual
Saat Anda menggunakan penskalaan manual, perilaku penagihan mirip dengan perilaku saat Anda menggunakan fitur instance minimum.
Artinya, dengan penskalaan manual dan penagihan berbasis instance, instance tidak ada aktivitas yang diskalakan secara manual ditagih sebagai instance aktif.
Jika Anda menggunakan penskalaan manual dengan penagihan berbasis permintaan, instance tidak ada aktivitas yang diskalakan secara manual akan ditagih sebagai instance minimum tidak ada aktivitas. Untuk mengetahui detail penagihan lengkap, lihat halaman harga.
Peran yang diperlukan
Untuk mendapatkan izin yang Anda perlukan untuk men-deploy layanan Cloud Run, minta administrator untuk memberi Anda peran IAM berikut:
-
Cloud Run Developer (
roles/run.developer
) di layanan Cloud Run -
Service Account User (
roles/iam.serviceAccountUser
) di identitas layanan -
Pembaca Artifact Registry (
roles/artifactregistry.reader
) di repositori Artifact Registry dari image container yang di-deploy (jika ada)
Untuk mengetahui daftar peran dan izin IAM yang terkait dengan Cloud Run, lihat Peran IAM Cloud Run dan Izin IAM Cloud Run. Jika layanan Cloud Run Anda berinteraksi dengan Google Cloud API, seperti Library Klien Cloud, lihat panduan konfigurasi identitas layanan. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat izin deployment dan mengelola akses.
Mengonfigurasi penskalaan
Anda dapat mengonfigurasi mode penskalaan menggunakan konsol Google Cloud, Google Cloud CLI, file YAML, atau API saat membuat atau memperbarui layanan:
Konsol
Di konsol Google Cloud , buka Cloud Run:
Jika Anda mengonfigurasi layanan baru, klik Deploy container dan pilih Service untuk menampilkan formulir Create service. Jika Anda mengonfigurasi layanan yang ada, klik layanan untuk menampilkan panel detailnya, lalu klik ikon pena di samping Penskalaan di kanan atas panel detail.
Temukan formulir Penskalaan layanan (untuk layanan baru) atau formulir Edit penskalaan untuk layanan yang ada.
Di kolom berlabel Number of instances, tentukan jumlah instance penampung untuk layanan.
Klik Buat untuk layanan baru atau Simpan untuk layanan yang sudah ada.
gcloud
Untuk menentukan penskalaan layanan baru, gunakan perintah deploy:
gcloud beta run deploy SERVICE \ --scaling=INSTANCE_COUNT \ --image IMAGE_URL
Ganti kode berikut:
- SERVICE dengan nama layanan Anda.
- INSTANCE_COUNT dengan jumlah instance untuk layanan.
Tindakan ini akan menetapkan layanan ke penskalaan manual. Tentukan nilai
0
untuk menonaktifkan layanan. Tentukan nilaiauto
untuk menggunakan perilaku penskalaan otomatis Cloud Run default. - IMAGE_URL dengan referensi ke image container,
misalnya,
us-docker.pkg.dev/cloudrun/container/hello:latest
. Jika Anda menggunakan Artifact Registry, repositori REPO_NAME harus sudah dibuat. URL memiliki bentukLOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG
.
Tentukan penskalaan untuk layanan yang ada menggunakan perintah update berikut:
gcloud beta run services update SERVICE \ --scaling=INSTANCE_COUNT
YAML
Jika Anda membuat layanan baru, lewati langkah ini. Jika Anda mengupdate layanan yang sudah ada, download konfigurasi YAML-nya:
gcloud run services describe SERVICE --format export > service.yaml
Update atribut
scalingMode
danmanualInstanceCount
:apiVersion: serving.knative.dev/v1 kind: Service metadata: name: SERVICE annotations: run.googleapis.com/launch-stage: BETA run.googleapis.com/scalingMode: MODE run.googleapis.com/manualInstanceCount: INSTANCE_COUNT
Ganti kode berikut:
- SERVICE dengan nama layanan Cloud Run Anda
- MODE dengan
manual
untuk penskalaan manual, atauautomatic
untuk perilaku penskalaan otomatis Cloud Run default. - INSTANCE_COUNT dengan jumlah instance yang Anda ubah skalanya secara manual untuk layanan. Tentukan nilai
0
untuk menonaktifkan layanan.
Buat atau perbarui layanan menggunakan perintah berikut:
gcloud run services replace service.yaml
REST API
Untuk memperbarui instance minimum tingkat layanan untuk layanan tertentu, kirim permintaan HTTP PATCH
ke endpoint service
Cloud Run Admin API.
Misalnya, menggunakan curl
:
curl -H "Content-Type: application/json" \ -H "Authorization: Bearer ACCESS_TOKEN" \ -X PATCH \ -d '{"launchStage":"BETA","scaling":{"manualInstanceCount":MANUAL_INSTANCE_COUNT }}' \ https://run.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/services/SERVICE?update_mask=launchStage,scaling.manualInstanceCount
Ganti:
- ACCESS_TOKEN dengan token akses yang valid untuk akun yang memiliki izin IAM untuk mengupdate layanan.
Misalnya, jika login ke
gcloud
, Anda dapat mengambil token akses menggunakangcloud auth print-access-token
. Dari dalam instance container Cloud Run, Anda dapat mengambil token akses menggunakan server metadata instance container. - MANUAL_INSTANCE_COUNT dengan jumlah instance untuk layanan.
Tindakan ini akan menetapkan layanan ke penskalaan manual. Tentukan nilai
0
untuk menonaktifkan layanan. - SERVICE dengan nama layanan.
- REGION dengan Google Cloud region tempat layanan di-deploy.
- PROJECT_ID dengan Google Cloud project ID.
Melihat konfigurasi penskalaan untuk layanan Anda
Untuk melihat instance konfigurasi penskalaan untuk layanan Cloud Run Anda:
Konsol
Di konsol Google Cloud , buka Cloud Run:
Klik layanan yang Anda minati untuk membuka panel Detail layanan.
Setelan penskalaan saat ini ditampilkan di kanan atas panel detail layanan, setelah label Penskalaan, di samping ikon pena.
gcloud
Gunakan perintah berikut untuk melihat konfigurasi penskalaan saat ini untuk layanan:
gcloud beta run services describe SERVICE
Ganti SERVICE dengan nama layanan Anda.
Cari kolom Scaling: Manual (Instances: )
di dekat bagian atas teks
yang ditampilkan dari describe
.
YAML
Gunakan perintah berikut untuk mendownload konfigurasi YAML layanan:
gcloud run services describe SERVICE --format export > service.yaml
Konfigurasi penskalaan terdapat dalam atribut scalingMode
dan
manualInstanceCount
.
Menonaktifkan layanan
Jika Anda menonaktifkan layanan, semua permintaan yang saat ini sedang diproses akan diizinkan untuk diselesaikan.
Namun, permintaan lebih lanjut ke URL layanan akan gagal dengan error Service unavailable
atau
Service disabled
.
Permintaan untuk melayani revisi yang hanya aktif karena tag traffic tidak akan terpengaruh karena revisi tersebut tidak dinonaktifkan.
Untuk menonaktifkan layanan, Anda menetapkan penskalaan ke nol. Anda dapat menonaktifkan layanan menggunakan konsol Google Cloud, Google Cloud CLI, file YAML, atau API:
Konsol
Di konsol Google Cloud , buka Cloud Run:
Klik layanan yang ingin Anda nonaktifkan untuk menampilkan panel detailnya, lalu klik ikon pena di samping Penskalaan di kanan atas panel detail.
Temukan formulir Edit penskalaan, lalu pilih Penskalaan manual.
Di kolom berlabel Number of instances, masukkan nilai
0
(nol).Klik Simpan.
gcloud
Untuk menonaktifkan layanan, gunakan perintah berikut untuk menetapkan penskalaan ke nol:
gcloud beta run services update SERVICE --scaling=0
Ganti SERVICE dengan nama layanan Anda.
YAML
Download konfigurasi YAML layanan Anda:
gcloud run services describe SERVICE --format export > service.yaml
Tetapkan atribut
manualInstanceCount
ke nol (0
):apiVersion: serving.knative.dev/v1 kind: Service metadata: name: SERVICE annotations: run.googleapis.com/launch-stage: BETA run.googleapis.com/scalingMode: manual run.googleapis.com/manualInstanceCount: `0`
Ganti SERVICE dengan nama layanan Cloud Run Anda.
Buat atau perbarui layanan menggunakan perintah berikut:
gcloud run services replace service.yaml
REST API
Untuk menonaktifkan layanan, kirim permintaan HTTP PATCH
ke endpoint service
Cloud Run Admin API.
Misalnya, menggunakan curl
:
curl -H "Content-Type: application/json" \ -H "Authorization: Bearer ACCESS_TOKEN" \ -X PATCH \ -d '{"launchStage":"BETA","scaling":{"manualInstanceCount":0 }}' \ https://run.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/services/SERVICE?update_mask=launchStage,scaling.manualInstanceCount
Ganti:
- ACCESS_TOKEN dengan token akses yang valid untuk akun yang memiliki izin IAM untuk mengupdate layanan.
Misalnya, jika login ke
gcloud
, Anda dapat mengambil token akses menggunakangcloud auth print-access-token
. Dari dalam instance container Cloud Run, Anda dapat mengambil token akses menggunakan server metadata instance container. - SERVICE dengan nama layanan.
- REGION dengan Google Cloud region tempat layanan di-deploy.
- PROJECT_ID dengan Google Cloud project ID.
Contoh penskalaan berbasis jadwal
Kasus penggunaan umum penskalaan manual adalah mengubah jumlah instance berdasarkan jadwal yang telah ditentukan sebelumnya. Dalam contoh ini, kita menggunakan Cloud Scheduler untuk menjadwalkan dua tugas, yang masing-masing memanggil Cloud Run Admin API untuk menskalakan jumlah instance. Tugas pertama menetapkan layanan untuk diskalakan secara manual ke 10 instance selama jam buka (09.00-17.00, Senin-Jumat). Tugas kedua menetapkan layanan untuk menskalakan ke instance nol selama jam non-operasional.
Perhatikan bahwa menetapkan instance ke nol seperti yang ditunjukkan dalam contoh akan menonaktifkan layanan, tetapi tidak menonaktifkan tugas Cloud Scheduler. Tugas tersebut akan terus berjalan dan akan mereset (dan mengaktifkan kembali) layanan ke 10 instance sesuai jadwal.
Dalam contoh ini, kita menggunakan panduan memulai Cloud Run untuk memudahkan, tetapi Anda dapat menggunakan layanan pilihan Anda.
Untuk menyiapkan penskalaan manual berbasis jadwal:
Deploy layanan Anda menggunakan perintah berikut:
gcloud beta run deploy SERVICE \ --image=us-docker.pkg.dev/cloudrun/container/hello \ --region=REGION \ --project PROJECT_ID
Ganti variabel berikut:
- REGION dengan region tempat layanan Cloud Run di-deploy.
- SERVICE dengan nama layanan Cloud Run.
Konfigurasikan layanan Anda untuk penskalaan manual ke 10 instance menggunakan perintah berikut:
gcloud beta run services update SERVICE \ --region=REGION \ --scaling=10
Buat tugas Cloud Scheduler yang menskalakan instance layanan secara manual ke 10 instance selama jam kerja:
gcloud scheduler jobs create http hello-start-instances \ --location=REGION \ --schedule="0 9 * * MON-FRI" \ --time-zone=America/Los_Angeles \ --uri=https://run.googleapis.com/v2/projects/PROJECT_ID/ locations/REGION/services/hello?update_mask=launchStage,scaling.manualInstanceCount \ --headers=Content-Type=application/json,X-HTTP-Method-Override=PATCH \ --http-method=PUT \ --message-body='{"launchStage":"BETA","scaling":{"manualInstanceCount":10}}' \ --oauth-service-account-email=PROJECT_NUMBER-compute@developer.gserviceaccount.com
Perintah ini membuat tugas Cloud Scheduler yang melakukan panggilan HTTP ke Cloud Run Admin API, yang menetapkan jumlah instance ke
10
. Contoh ini menggunakan akun layanan default Compute EnginePROJECT_NUMBER-compute@developer.gserviceaccount.com
untuk tugas Cloud Scheduler. Anda dapat menggunakan akun layanan apa pun yang memiliki izin untuk mengupdate layanan Cloud Run.Buat tugas Cloud Scheduler yang menskalakan instance layanan secara manual menjadi nol instance selama jam non-operasional, sehingga menonaktifkan layanan:
gcloud scheduler jobs create http hello-stop-instances \ --location=REGION \ --schedule="0 17 * * MON-FRI" \ --time-zone=America/Los_Angeles \ --uri=https://run.googleapis.com/v2/projects/PROJECT_ID/ locations/REGION/services/hello?update_mask=launchStage,scaling.manualInstanceCount \ --headers=Content-Type=application/json,X-HTTP-Method-Override=PATCH \ --http-method=PUT \ --message-body='{"launchStage":"BETA","scaling":{"manualInstanceCount":0}}' \ --oauth-service-account-email=PROJECT_NUMBER-compute@developer.gserviceaccount.com
Perintah ini membuat tugas Cloud Scheduler yang melakukan panggilan HTTP ke Cloud Run Admin API, yang menetapkan instance penskalaan manual ke nol. Tindakan ini secara efektif menonaktifkan layanan, tetapi tidak menonaktifkan tugas Cloud Scheduler, yang akan terus berjalan dan mereset (dan mengaktifkan kembali) layanan ke 10 instance sesuai jadwal.