Halaman ini diterjemahkan oleh Cloud Translation API.

Penskalaan manual

Halaman ini menjelaskan cara menskalakan layanan secara manual. Tutorial ini juga memberikan petunjuk untuk kasus penggunaan umum, mengubah jumlah instance berdasarkan jadwal menggunakan tugas Cloud Scheduler dan Cloud Run Admin API.

Ringkasan

Secara default, Cloud Run secara otomatis menskalakan ke jumlah maksimum instance yang ditentukan atau default, bergantung pada traffic dan penggunaan CPU. Namun, untuk beberapa kasus penggunaan, Anda mungkin ingin memiliki kemampuan untuk menetapkan jumlah instance tertentu, menggunakan penskalaan manual.

Penskalaan manual memungkinkan Anda menetapkan jumlah instance tertentu, terlepas dari traffic atau penggunaan, dan tanpa memerlukan deployment ulang. Semua ini memberi Anda opsi untuk menulis logika penskalaan Anda sendiri menggunakan sistem eksternal. Lihat Penskalaan berbasis jadwal untuk mengetahui contohnya.

Beralih antara penskalaan otomatis dan manual

Mengubah mode penskalaan akan memengaruhi jumlah instance dan setelan instance minimum dan maksimum tingkat layanan seperti yang ditunjukkan dalam tabel berikut:

Menskalakan arah tombol	Jumlah instance	Instance minimum dan maksimum
Dari otomatis ke manual	Jika jumlah instance tidak ditentukan dalam perintah yang mengalihkan mode, warisi setelan instance minimum tingkat layanan.	Setelah beralih, instance minimum dan maksimum tingkat layanan tidak ditetapkan.
Dari manual ke otomatis	Jumlah instance manual tidak ditetapkan	Anda harus menentukan kedua instance minimum dan maksimum tingkat layanan, atau tidak satu pun dari keduanya. (Menentukan hanya satu akan menampilkan error.) Jika Anda menentukan tidak satu pun dari keduanya dalam perintah yang mengalihkan mode, instance minimum dan maksimum tingkat layanan akan mewarisi jumlah instance manual.

Setelan minimum dan maksimum tingkat revisi serta penskalaan manual

Jika Anda menetapkan layanan ke penskalaan manual, setelan instance maksimum dan minimum tingkat revisi akan diabaikan.

Pembagian traffic untuk penskalaan manual

Daftar berikut menjelaskan cara instance dialokasikan saat membagi traffic dalam penskalaan manual. Hal ini mencakup perilaku untuk revisi khusus tag traffic.

Selama pembagian traffic, setiap revisi dialokasikan instance secara proporsional, berdasarkan pembagian traffic, mirip dengan pembagian traffic dengan instance minimum tingkat layanan.
Jika jumlah revisi yang menerima traffic melebihi jumlah instance manual, beberapa revisi tidak akan memiliki instance. Traffic yang dikirim ke revisi tersebut akan mendapatkan error yang sama seperti jika revisi dinonaktifkan.
Untuk semua revisi yang menerima traffic dalam pembagian traffic, instance minimum dan maksimum level revisi akan dinonaktifkan.
Jika revisi aktif hanya karena tag traffic:
- Jika instance minimum tingkat revisi ditetapkan, jumlah instance yang ditentukan akan dimulai, tetapi tidak dihitung dalam total jumlah instance manual layanan. Revisi tidak akan diskalakan secara otomatis.
- Jika instance minimum tingkat revisi tidak ditetapkan, revisi akan diskalakan ke maksimal satu instance, sebagai respons terhadap traffic yang dikirim ke URL tag.

Perilaku penagihan menggunakan penskalaan manual

Saat Anda menggunakan penskalaan manual, perilaku penagihan mirip dengan perilaku saat Anda menggunakan fitur instance minimum.

Artinya, dengan penskalaan manual dan penagihan berbasis instance, instance tidak ada aktivitas yang diskalakan secara manual ditagih sebagai instance aktif.

Jika Anda menggunakan penskalaan manual dengan penagihan berbasis permintaan, instance tidak ada aktivitas yang diskalakan secara manual akan ditagih sebagai instance minimum tidak ada aktivitas. Untuk mengetahui detail penagihan lengkap, lihat halaman harga.

Peran yang diperlukan

Untuk mendapatkan izin yang Anda perlukan untuk men-deploy layanan Cloud Run, minta administrator untuk memberi Anda peran IAM berikut:

Cloud Run Developer (roles/run.developer) di layanan Cloud Run
Service Account User (roles/iam.serviceAccountUser) di identitas layanan
Pembaca Artifact Registry (roles/artifactregistry.reader) di repositori Artifact Registry dari image container yang di-deploy (jika ada)

Untuk mengetahui daftar peran dan izin IAM yang terkait dengan Cloud Run, lihat Peran IAM Cloud Run dan Izin IAM Cloud Run. Jika layanan Cloud Run Anda berinteraksi dengan Google Cloud API, seperti Library Klien Cloud, lihat panduan konfigurasi identitas layanan. Untuk mengetahui informasi selengkapnya tentang cara memberikan peran, lihat izin deployment dan mengelola akses.

Mengonfigurasi penskalaan

Anda dapat mengonfigurasi mode penskalaan menggunakan konsol Google Cloud, Google Cloud CLI, file YAML, atau API saat membuat atau memperbarui layanan:

Konsol

Di konsol Google Cloud , buka Cloud Run:

Buka Cloud Run
Jika Anda mengonfigurasi layanan baru, klik Deploy container dan pilih Service untuk menampilkan formulir Create service. Jika Anda mengonfigurasi layanan yang ada, klik layanan untuk menampilkan panel detailnya, lalu klik ikon pena di samping Penskalaan di kanan atas panel detail.
Temukan formulir Penskalaan layanan (untuk layanan baru) atau formulir Edit penskalaan untuk layanan yang ada.

Di kolom berlabel Number of instances, tentukan jumlah instance penampung untuk layanan.
Klik Buat untuk layanan baru atau Simpan untuk layanan yang sudah ada.

gcloud

Untuk menentukan penskalaan layanan baru, gunakan perintah deploy:

gcloud beta run deploy SERVICE \
    --scaling=INSTANCE_COUNT \
    --image IMAGE_URL

Ganti kode berikut:

SERVICE dengan nama layanan Anda.
INSTANCE_COUNT dengan jumlah instance untuk layanan. Tindakan ini akan menetapkan layanan ke penskalaan manual. Tentukan nilai 0 untuk menonaktifkan layanan. Tentukan nilai auto untuk menggunakan perilaku penskalaan otomatis Cloud Run default.
IMAGE_URL dengan referensi ke image container, misalnya, us-docker.pkg.dev/cloudrun/container/hello:latest. Jika Anda menggunakan Artifact Registry, repositori REPO_NAME harus sudah dibuat. URL memiliki bentuk LOCATION-docker.pkg.dev/PROJECT_ID/REPO_NAME/PATH:TAG .

Tentukan penskalaan untuk layanan yang ada menggunakan perintah update berikut:

gcloud beta run services update SERVICE \
   --scaling=INSTANCE_COUNT

YAML

Jika Anda membuat layanan baru, lewati langkah ini. Jika Anda mengupdate layanan yang sudah ada, download konfigurasi YAML-nya:
```
gcloud run services describe SERVICE --format export > service.yaml
```
Update atribut scalingMode dan manualInstanceCount:
```
apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: SERVICE
  annotations:
  run.googleapis.com/launch-stage: BETA
  run.googleapis.com/scalingMode: MODE
  run.googleapis.com/manualInstanceCount: INSTANCE_COUNT
```
Ganti kode berikut:
- SERVICE dengan nama layanan Cloud Run Anda
- MODE dengan manual untuk penskalaan manual, atau automatic untuk perilaku penskalaan otomatis Cloud Run default.
- INSTANCE_COUNT dengan jumlah instance yang Anda ubah skalanya secara manual untuk layanan. Tentukan nilai 0 untuk menonaktifkan layanan.
Buat atau perbarui layanan menggunakan perintah berikut:
```
gcloud run services replace service.yaml
```

REST API

Untuk memperbarui instance minimum tingkat layanan untuk layanan tertentu, kirim permintaan HTTP PATCH ke endpoint service Cloud Run Admin API.

Misalnya, menggunakan curl:

    curl -H "Content-Type: application/json" \
    -H "Authorization: Bearer ACCESS_TOKEN" \
    -X PATCH \
    -d '{"launchStage":"BETA","scaling":{"manualInstanceCount":MANUAL_INSTANCE_COUNT }}' \
    https://run.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/services/SERVICE?update_mask=launchStage,scaling.manualInstanceCount

Ganti:

ACCESS_TOKEN dengan token akses yang valid untuk akun yang memiliki izin IAM untuk mengupdate layanan. Misalnya, jika login ke gcloud, Anda dapat mengambil token akses menggunakan gcloud auth print-access-token. Dari dalam instance container Cloud Run, Anda dapat mengambil token akses menggunakan server metadata instance container.
MANUAL_INSTANCE_COUNT dengan jumlah instance untuk layanan. Tindakan ini akan menetapkan layanan ke penskalaan manual. Tentukan nilai 0 untuk menonaktifkan layanan.
SERVICE dengan nama layanan.
REGION dengan Google Cloud region tempat layanan di-deploy.
PROJECT_ID dengan Google Cloud project ID.

Melihat konfigurasi penskalaan untuk layanan Anda

Untuk melihat instance konfigurasi penskalaan untuk layanan Cloud Run Anda:

Konsol

Di konsol Google Cloud , buka Cloud Run:

Buka Cloud Run
Klik layanan yang Anda minati untuk membuka panel Detail layanan.
Setelan penskalaan saat ini ditampilkan di kanan atas panel detail layanan, setelah label Penskalaan, di samping ikon pena.

gcloud

Gunakan perintah berikut untuk melihat konfigurasi penskalaan saat ini untuk layanan:

gcloud beta run services describe SERVICE

Ganti SERVICE dengan nama layanan Anda.

Cari kolom Scaling: Manual (Instances: ) di dekat bagian atas teks yang ditampilkan dari describe.

YAML

Gunakan perintah berikut untuk mendownload konfigurasi YAML layanan:

gcloud run services describe SERVICE --format export > service.yaml

Konfigurasi penskalaan terdapat dalam atribut scalingMode dan manualInstanceCount.

Menonaktifkan layanan

Jika Anda menonaktifkan layanan, semua permintaan yang saat ini sedang diproses akan diizinkan untuk diselesaikan. Namun, permintaan lebih lanjut ke URL layanan akan gagal dengan error Service unavailable atau Service disabled.

Permintaan untuk melayani revisi yang hanya aktif karena tag traffic tidak akan terpengaruh karena revisi tersebut tidak dinonaktifkan.

Untuk menonaktifkan layanan, Anda menetapkan penskalaan ke nol. Anda dapat menonaktifkan layanan menggunakan konsol Google Cloud, Google Cloud CLI, file YAML, atau API:

Konsol

Di konsol Google Cloud , buka Cloud Run:

Buka Cloud Run
Klik layanan yang ingin Anda nonaktifkan untuk menampilkan panel detailnya, lalu klik ikon pena di samping Penskalaan di kanan atas panel detail.
Temukan formulir Edit penskalaan, lalu pilih Penskalaan manual.

Di kolom berlabel Number of instances, masukkan nilai 0 (nol).
Klik Simpan.

gcloud

Untuk menonaktifkan layanan, gunakan perintah berikut untuk menetapkan penskalaan ke nol:

gcloud beta run services update SERVICE --scaling=0

Ganti SERVICE dengan nama layanan Anda.

YAML

Download konfigurasi YAML layanan Anda:

gcloud run services describe SERVICE --format export > service.yaml

Tetapkan atribut manualInstanceCount ke nol (0):

apiVersion: serving.knative.dev/v1
kind: Service
metadata:
  name: SERVICE
  annotations:
  run.googleapis.com/launch-stage: BETA
  run.googleapis.com/scalingMode: manual
  run.googleapis.com/manualInstanceCount: `0`

Ganti SERVICE dengan nama layanan Cloud Run Anda.

Buat atau perbarui layanan menggunakan perintah berikut:
```
gcloud run services replace service.yaml
```

REST API

Untuk menonaktifkan layanan, kirim permintaan HTTP PATCH ke endpoint service Cloud Run Admin API.

Misalnya, menggunakan curl:

    curl -H "Content-Type: application/json" \
    -H "Authorization: Bearer ACCESS_TOKEN" \
    -X PATCH \
    -d '{"launchStage":"BETA","scaling":{"manualInstanceCount":0 }}' \
    https://run.googleapis.com/v2/projects/PROJECT_ID/locations/REGION/services/SERVICE?update_mask=launchStage,scaling.manualInstanceCount

Ganti:

ACCESS_TOKEN dengan token akses yang valid untuk akun yang memiliki izin IAM untuk mengupdate layanan. Misalnya, jika login ke gcloud, Anda dapat mengambil token akses menggunakan gcloud auth print-access-token. Dari dalam instance container Cloud Run, Anda dapat mengambil token akses menggunakan server metadata instance container.
SERVICE dengan nama layanan.
REGION dengan Google Cloud region tempat layanan di-deploy.
PROJECT_ID dengan Google Cloud project ID.

Contoh penskalaan berbasis jadwal

Kasus penggunaan umum penskalaan manual adalah mengubah jumlah instance berdasarkan jadwal yang telah ditentukan sebelumnya. Dalam contoh ini, kita menggunakan Cloud Scheduler untuk menjadwalkan dua tugas, yang masing-masing memanggil Cloud Run Admin API untuk menskalakan jumlah instance. Tugas pertama menetapkan layanan untuk diskalakan secara manual ke 10 instance selama jam buka (09.00-17.00, Senin-Jumat). Tugas kedua menetapkan layanan untuk menskalakan ke instance nol selama jam non-operasional.

Perhatikan bahwa menetapkan instance ke nol seperti yang ditunjukkan dalam contoh akan menonaktifkan layanan, tetapi tidak menonaktifkan tugas Cloud Scheduler. Tugas tersebut akan terus berjalan dan akan mereset (dan mengaktifkan kembali) layanan ke 10 instance sesuai jadwal.

Dalam contoh ini, kita menggunakan panduan memulai Cloud Run untuk memudahkan, tetapi Anda dapat menggunakan layanan pilihan Anda.

Untuk menyiapkan penskalaan manual berbasis jadwal:

Deploy layanan Anda menggunakan perintah berikut:
```
gcloud beta run deploy SERVICE \
   --image=us-docker.pkg.dev/cloudrun/container/hello \
   --region=REGION \
   --project PROJECT_ID
```
Ganti variabel berikut:
- REGION dengan region tempat layanan Cloud Run di-deploy.
- SERVICE dengan nama layanan Cloud Run.
Konfigurasikan layanan Anda untuk penskalaan manual ke 10 instance menggunakan perintah berikut:
```
gcloud beta run services update SERVICE \
   --region=REGION \
   --scaling=10
```
Buat tugas Cloud Scheduler yang menskalakan instance layanan secara manual ke 10 instance selama jam kerja:
```
gcloud scheduler jobs create http hello-start-instances \
  --location=REGION \
  --schedule="0 9 * * MON-FRI" \
  --time-zone=America/Los_Angeles \
  --uri=https://run.googleapis.com/v2/projects/PROJECT_ID/
  locations/REGION/services/hello?update_mask=launchStage,scaling.manualInstanceCount \
  --headers=Content-Type=application/json,X-HTTP-Method-Override=PATCH \
  --http-method=PUT \
  --message-body='{"launchStage":"BETA","scaling":{"manualInstanceCount":10}}' \
  --oauth-service-account-email=PROJECT_NUMBER-compute@developer.gserviceaccount.com
```
Perintah ini membuat tugas Cloud Scheduler yang melakukan panggilan HTTP ke Cloud Run Admin API, yang menetapkan jumlah instance ke 10. Contoh ini menggunakan akun layanan default Compute Engine PROJECT_NUMBER-compute@developer.gserviceaccount.com untuk tugas Cloud Scheduler. Anda dapat menggunakan akun layanan apa pun yang memiliki izin untuk mengupdate layanan Cloud Run.

Catatan: Contoh ini menggunakan header X-HTTP-Method-Override=PATCH karena CLI Cloud Scheduler tidak mendukung setelan http-method=PATCH. Jika mengonfigurasi tugas Cloud Scheduler menggunakan konsol Google Cloud, Anda dapat menetapkan metode HTTP ke PATCH, dan mengecualikan header.

Buat tugas Cloud Scheduler yang menskalakan instance layanan secara manual menjadi nol instance selama jam non-operasional, sehingga menonaktifkan layanan:

gcloud scheduler jobs create http hello-stop-instances \
  --location=REGION \
  --schedule="0 17 * * MON-FRI" \
  --time-zone=America/Los_Angeles \
  --uri=https://run.googleapis.com/v2/projects/PROJECT_ID/
  locations/REGION/services/hello?update_mask=launchStage,scaling.manualInstanceCount \
  --headers=Content-Type=application/json,X-HTTP-Method-Override=PATCH \
  --http-method=PUT \
  --message-body='{"launchStage":"BETA","scaling":{"manualInstanceCount":0}}' \
  --oauth-service-account-email=PROJECT_NUMBER-compute@developer.gserviceaccount.com

Perintah ini membuat tugas Cloud Scheduler yang melakukan panggilan HTTP ke Cloud Run Admin API, yang menetapkan instance penskalaan manual ke nol. Tindakan ini secara efektif menonaktifkan layanan, tetapi tidak menonaktifkan tugas Cloud Scheduler, yang akan terus berjalan dan mereset (dan mengaktifkan kembali) layanan ke 10 instance sesuai jadwal.