Halaman ini diterjemahkan oleh Cloud Translation API.

Tentang penskalaan otomatis instance di layanan Cloud Run

Halaman ini menjelaskan perilaku penskalaan otomatis default Cloud Run. Jika Anda membutuhkan lebih banyak kontrol atas perilaku penskalaan, pelajari opsi penskalaan alternatif, penskalaan manual.

Secara default, setiap revisi Cloud Run secara otomatis diskalakan ke jumlah instance yang diperlukan untuk menangani semua permintaan, peristiwa, atau pemakaian CPU yang masuk.

Jika tidak menerima traffic apa pun, revisi akan diskalakan ke nol instance secara default. Namun, jika diperlukan, Anda dapat mengubah default ini untuk menentukan instance agar tetap nonaktif atau "warm" dengan menggunakan setelan instance minimum. Jika layanan Anda menggunakan CPU meskipun tidak memproses permintaan, Anda harus menetapkan jumlah minimum instance sama dengan 1.

Selain tingkat permintaan, peristiwa, atau pemakaian CPU yang masuk, jumlah instance yang dijadwalkan juga dipengaruhi oleh:

Pemakaian CPU rata-rata instance yang sudah ada selama periode satu menit, yang menargetkan untuk mempertahankan pemakaian CPU sebesar 60%.
Permintaan serentak saat ini, yang menargetkan untuk mempertahankan konkurensi instance pada 60% dari konkurensi maksimum selama periode satu menit.
Jumlah maksimum setelan instance
Jumlah minimum setelan instance

Penskalaan otomatis Cloud Run mengevaluasi ini secara berkala.

Penagihan dan penskalaan otomatis berbasis instance

Jika Anda mengonfigurasi penagihan berbasis instance untuk layanan Cloud Run, Anda harus memahami perilaku penskalaan ke dan dari nol.

Menskalakan dari nol. Penskalaan dari nol hanya dapat dipicu oleh permintaan, sehingga layanan yang tidak memproses permintaan tidak dapat melakukan penskalaan dari nol. Untuk workload ini, Anda dapat menetapkan instance minimum > 0, atau menyertakan "permintaan aktif" dalam desain Anda untuk memulai ulang pemrosesan setelah penskalaan ke nol.

Menskalakan hingga nol. Mengingat tidak ada instance yang pernah berada pada 0% CPU, melihat semua penggunaan CPU tidak akan pernah menghasilkan penskalaan ke nol. Artinya, keputusan untuk menskalakan dari satu ke nol hanya dapat dibuat dengan memeriksa apakah instance sedang memproses permintaan.

Tentang instance maksimum

Dalam beberapa kasus Anda mungkin ingin membatasi jumlah instance yang dapat dimulai, karena alasan kontrol biaya atau meningkatkan kompabilitas dengan resource lain yang digunakan pada layanan Anda. Misalnya, layanan Cloud Run Anda mungkin berinteraksi dengan database yang hanya dapat menangani beberapa jumlah koneksi terbuka serentak.

Anda dapat menggunakan setelan instance maksimum untuk membatasi jumlah total instance yang dapat dimulai secara paralel yang didokumentasikan pada bagian Setelan maksimum jumlah instance.

Melampaui jumlah instance maksimum

Dalam keadaan normal, revisi Anda akan diskalakan dengan membuat instance baru untuk menangani beban traffic masuk. Namun, ketika Anda mengatur batas jumlah instance maksimum pada beberapa skenario instance tidak akan cukup untuk memenuhi beban traffic tersebut. Dalam hal ini, permintaan masuk diantrekan (tertunda) sebagai berikut:

Permintaan akan ditunda hingga 3,5 kali waktu mulai rata-rata instance penampung layanan ini, atau 10 detik, mana saja yang lebih besar.

Selama periode waktu ini, jika instance selesai memproses permintaan, instance tersebut akan tersedia untuk memproses permintaan tertunda yang dimasukkan dalam antrean. Jika tidak ada instance tersedia selama periode, permintaan gagal dengan 429 kode error.

Jaminan penskalaan

Batas instance maksimum adalah batas atas per revisi dan artinya jumlah instance untuk revisi ini tidak boleh melebihi batas maksimum.

Dalam keadaan normal, Cloud Run dapat melakukan penskalaan ke batas instance maksimum dengan sangat cepat untuk menangani semua permintaan atau peristiwa yang masuk. Namun, menetapkan batas tinggi tidak berarti revisi Anda akan dapat diskalakan ke jumlah instance yang ditentukan pada waktu tertentu. Dalam keadaan tertentu, Cloud Run dapat membatasi penskalaan untuk memastikan layanan yang baik bagi semua pelanggan.

Melebihi jumlah instance maksimum karena lonjakan traffic

Dalam beberapa kasus, seperti cepatnya lonjakan traffic atau pemeliharaan sistem Cloud Run mungkin, dalam jangka waktu singkat membuat instance lebih dari jumlah dalam setelan instance maksimum. Instance baru dapat dimulai dengan melebihi setelan instance maksimum untuk menggantikan instance yang sudah ada dan menyelesaikan proses permintaan inflight dengan menyediakan masa tenggang.

Batas instance maksimum dapat terlampaui pada keadaan operasi normal beberapa kali per minggu. Masa tenggang biasanya berlangsung hingga 15 menit atau hingga nilai yang sudah ditentukan pada setelan waktu tunggu permintaan Instance ekstra ini akan dimusnahkan setelah dalam keadaan nonaktif selama 15 menit.

Jika dibutuhkan beberapa penggantian, pembaruan biasanya tersebar dalam beberapa menit atau jam, tetapi setiap pengganti instance yang berlebihan hanya untuk masa tenggang. Instance yang melebihi nilai instance maksimum biasanya kurang dari dua kali batas instance maksimum yang dikonfigurasi, tetapi dapat jauh lebih besar jika tiba-tiba terjadi lonjakan traffic besar.

Pengalaman uji beban lebih melampaui batas setelan instance maksimum karena sistem mungkin dapat berubah ketika terjadi lonjakan traffic yang ditampilkan untuk mempertahankan kapasitas terhadap beban kerja yang ada dan memiliki pola beban berkelanjutan.

Jika layanan Anda tidak dapat menoleransi aturan sementara ini, Anda mungkin ingin mempertimbangkan margin keamanan mengatur nilai instance maksimum lebih rendah.

Pembagian traffic

Karena batas instance maksimum merupakan batas untuk setiap revisi, jika layanan membagi traffic menjadi beberapa revisi, jumlah instance pada layanan dapat melebihi instance maksimum per revisi. Hal ini dapat diamati dalam metrik Jumlah Instance.

Deployment

Saat Anda men-deploy revisi baru menjalankan 100% traffic, Cloud Run memulai dengan cukup banyak revisi baru sebelum mengarah langsung ke traffic. Hal ini mempengaruhi deployment revisi baru pada latensi permintaan, terutama ketika menjalankan traffic tingkat tinggi. Karena batas instance maksimum merupakan batas untuk setiap revisi, selama deployment, jumlah total instance untuk layanan dapat melebihi instance maksimum per revisi. Hal ini dapat diamati dalam metrik Jumlah Instance.

Instance nonaktif dan meminimalkan cold start

Cloud Run tidak akan segera menonaktifkan instances setelah menangani semua permintaan. Untuk meminimalkan dampak cold start, Cloud Run dapat menyimpan beberapa instance nonaktif selama maksimum 15 menit. Resource Cloud Run yang mengaktifkan GPU dapat menyimpan beberapa instance nonaktif selama maksimum 10 menit. Instance ini siap menangani permintaan jika terjadi lonjakan traffic secara tiba-tiba.

Misalnya, ketika instance berhasil menangani permintaan, instance mungkin akan tetap dalam keadaan nonaktif selama beberapa waktu jika permintaan lain perlu ditangani. Instance nonaktif dapat mempertahankan resources seperti koneksi database terbuka. Perhatikan bahwa setelan penagihan default adalah penagihan berbasis permintaan, kecuali jika Anda mengonfigurasi layanan secara eksplisit agar memiliki penagihan berbasis instance.

Untuk menyimpan instance nonaktif agar tersedia secarapermanen, gunakan min-instance setelan. Perhatikan bahwa penggunaan fitur ini akan dikenai biaya meskipun ketika layanan tidak sedang aktif menyalurkan permintaan.

Penskalaan otomatis dan permintaan tertunda

Permintaan akan ditunda hingga 3,5 kali waktu mulai rata-rata instance penampung layanan ini, atau 10 detik, mana saja yang lebih besar.

Dampak penskalaan otomatis pada layanan pendukung

Seiring bertambahnya jumlah instance secara otomatis, layanan Cloud Run Anda mungkin mencapai batas dengan layanan pendukungnya. Misalnya, Cloud SQL memiliki batas kuota API. Pastikan layanan pendukung ini memiliki kuota cukup dan dapat menangani koneksi dari semua instance pada layanan Cloud Run Anda. Pertimbangkan setelan jumlah maksimum instance untuk menghindari layanan pendukung kelebihan beban.

Penskalaan Otomatis dan Pub/Sub

Google merekomendasikan penggunaan langganan push untuk menggunakan pesan dari topik Pub/Sub di Cloud Run. Pesan yang dikirim diterima, seperti permintaan HTTP oleh container, sehingga memicu perilaku penskalaan otomatis yang sama.

Penskalaan otomatis dan beberapa container (file bantuan)

Cloud Run mempertimbangkan penggunaan CPU instance untuk penskalaan otomatis, dengan penggunaan CPU instance adalah persentase CPU yang dialokasikan dan digunakan.

Perhatikan bahwa Anda mengalokasikan CPU saat menetapkan batas CPU di tingkat container. Jika Anda menggunakan beberapa container per instance, alokasi CPU sebenarnya untuk instance tersebut adalah jumlah batas CPU yang Anda tetapkan pada setiap container.

Langkah berikutnya

Untuk mempelajari opsi penskalaan lainnya, lihat penskalaan manual.
Untuk mengelola jumlah maksimum instance pada layanan Cloud Run Anda services, lihat Setelan jumlah maksimum instances.
Untuk mengelola jumlah maksimum permintaan serentak yang ditangani oleh setiap instance lihat Setelan serentak.
Untuk mengoptimalkan setelan serentak Anda, lihat tips pengembangan untuk penyesuaian serentak.
Untuk menentukan instance nonaktif tetap berjalan pada meminimalkan latensi atau cold starts pada permintaan pertama, lihat Pengguna min-instance untuk mengaktifkan instance nonaktif.