Menetapkan jumlah maksimum instance container

Pelajari cara menetapkan jumlah maksimum instance container yang dapat digunakan untuk layanan inferensi Knative Anda. Dengan menentukan instance maksimum dalam penayangan Knative, Anda dapat membatasi penskalaan layanan sebagai respons terhadap permintaan masuk. Gunakan setelan ini sebagai salah satu cara untuk mengontrol biaya Anda atau untuk membatasi jumlah koneksi ke layanan pendukung, seperti ke database.

Untuk mengetahui informasi selengkapnya tentang cara Knative menayangkan instance container penskalaan otomatis, lihat Penskalaan otomatis instance.

Mengatur dan memperbarui instance maksimum

Setiap perubahan konfigurasi akan menghasilkan revisi baru. Revisi selanjutnya juga akan otomatis mendapatkan setelan konfigurasi ini, kecuali jika Anda melakukan pembaruan eksplisit untuk mengubahnya.

Secara default, jumlah instance container dapat diskalakan tanpa batas. Anda dapat menetapkan batas atas untuk jumlah maksimum instance menggunakan konsol Google Cloud, atau Google Cloud CLI saat men-deploy layanan baru atau mengupdate layanan yang ada dan men-deploy revisi:

Konsol

  1. Buka penayangan Knative di konsol Google Cloud:

    Buka penayangan Knative

  2. Klik Buat Layanan jika Anda mengonfigurasi layanan baru yang akan di-deploy. Jika Anda mengonfigurasi layanan yang ada, klik layanan, lalu klik Edit & Deploy New revision.

  3. Di bagian Setelan lanjutan, klik Penampung.

  4. Di kolom berlabel Jumlah maksimum instance, tentukan jumlah maksimum instance container yang diinginkan.

  5. Klik Berikutnya untuk melanjutkan ke bagian berikutnya.

  6. Di bagian Configure bagaimana layanan ini dipicu, pilih konektivitas yang ingin Anda gunakan untuk memanggil layanan.

  7. Klik Create untuk men-deploy image ke penayangan Knative dan tunggu hingga deployment selesai.

Command line

  • Untuk layanan yang ada, tetapkan jumlah maksimum instance container dengan menjalankan perintah gcloud run services update dengan parameter --max-instances:

    gcloud run services update SERVICE --max-instances MAX-VALUE
    

    Ganti:

    • SERVICE dengan nama layanan Anda.
    • MAX-VALUE dengan jumlah maksimum instance penampung yang diinginkan. Tentukan default untuk menghapus setelan instance maksimum.
  • Untuk layanan baru, tetapkan jumlah maksimum instance container dengan menjalankan perintah gcloud run deploy dengan parameter --max-instances:

    gcloud run deploy SERVICE --image=IMAGE_URL --max-instances MAX-VALUE
    

    Ganti:

    • SERVICE dengan nama layanan Anda.
    • IMAGE_URL dengan mereferensikan ke image container, misalnya, gcr.io/cloudrun/hello.
    • MAX-VALUE dengan jumlah maksimum instance penampung yang diinginkan. Tentukan default untuk menghapus setelan instance maksimum.

YAML

Anda dapat mendownload konfigurasi layanan yang ada ke dalam file YAML menggunakan perintah gcloud run services describe menggunakan flag --format=export. Anda kemudian dapat memodifikasi file YAML dan men-deploy perubahan tersebut dengan perintah gcloud run services replace. Anda harus memastikan bahwa Anda hanya mengubah atribut yang ditentukan.

  1. Download konfigurasi layanan Anda ke file bernama service.yaml di ruang kerja lokal:

    gcloud run services describe SERVICE --format export > service.yaml

    Ganti SERVICE dengan nama layanan penayangan Knative Anda.

  2. Di file lokal Anda, perbarui atribut autoscaling.knative.dev/maxScale::

    spec:
     template:
       metadata:
         annotations:
           autoscaling.knative.dev/maxScale: 'MAX-INSTANCE' 

    Ganti

    • MAX-INSTANCE dengan jumlah maksimum yang diinginkan.
  3. Ganti layanan dengan konfigurasi baru menggunakan perintah berikut:

    gcloud run services replace service.yaml