Dokumentasi ini ditujukan untuk versi Terbaru Knative serving, yang menggunakan armada dan Anthos Service Mesh. Pelajari lebih lanjut.

Versi sebelumnya (Cloud Run for Anthos) telah diarsipkan, tetapi dokumentasinya tetap tersedia untuk pengguna yang sudah ada.

Versi yang tersedia

Terbaru
Arsipkan

Halaman ini diterjemahkan oleh Cloud Translation API.

Ringkasan arsitektur inferensi Knative

Halaman ini memberikan ringkasan arsitektur Knative serving dan mencakup perubahan yang terjadi saat Anda mengaktifkan Knative serving di cluster Google Kubernetes Engine Anda.

Informasi ini berguna bagi jenis pengguna berikut:

Pengguna yang baru mulai menggunakan inferensi Knative.
Operator yang berpengalaman dalam menjalankan cluster GKE.
Developer aplikasi yang perlu mengetahui lebih lanjut cara integrasi layanan Knative dengan cluster Kubernetes untuk mendesain aplikasi yang lebih baik atau mengonfigurasi aplikasi layanan Knative mereka.

Komponen dalam penginstalan default

Instal Knative serving ke dalam cluster Anda untuk menghubungkan dan mengelola workload stateless Anda. Komponen Knative dibuat di namespace knative-serving.

Knative serving menggunakan Cloud Service Mesh untuk merutekan traffic. Secara default, Cloud Service Mesh menginstal komponen di namespace istio-system.

Berikut adalah daftar komponen yang diinstal oleh Knative serving dan Cloud Service Mesh:

Komponen yang diinstal oleh inferensi Knative di namespace knative-serving:
- Pengaktif: Saat pod diskala menjadi nol atau kelebihan beban dengan permintaan yang dikirim ke revisi, Pengaktif akan mengantrekan permintaan untuk sementara dan mengirimkan metrik ke Penskala Otomatis untuk meluncurkan lebih banyak pod. Setelah Autoscaler menskalakan revisi berdasarkan metrik yang dilaporkan dan pod yang tersedia, Activator meneruskan permintaan yang diantrekan ke revisi. Activator adalah komponen bidang data; komponen bidang data mengelola semua fungsi dan proses penerusan traffic pengguna.
- Autoscaler: Menggabungkan dan memproses metrik dari Activator dan penampung sidecar proxy antrean, komponen di bidang data yang menerapkan batas serentak permintaan. Kemudian, autoscaler menghitung konkurensi yang diamati untuk revisi dan menyesuaikan ukuran deployment berdasarkan jumlah pod yang diinginkan. Jika pod tersedia dalam revisi, Autoscaler adalah komponen bidang kontrol; jika tidak, saat pod diturunkan skalanya menjadi nol, Autoscaler adalah komponen bidang data.
- Pengontrol: Membuat dan mengupdate resource turunan Autoscaler dan objek Layanan. Pengontrol adalah komponen bidang kontrol; komponen bidang kontrol mengelola semua fungsi dan proses yang membuat jalur permintaan traffic pengguna.
- Pengumpul Metrik: Mengumpulkan metrik dari komponen layanan Knative, lalu meneruskannya ke Cloud Monitoring.
- Webhook: Menetapkan nilai default, menolak objek yang tidak konsisten dan tidak valid, serta memvalidasi dan memutasi panggilan Kubernetes API terhadap resource layanan Knative. Webhook adalah komponen bidang kontrol.
Komponen yang diinstal oleh Cloud Service Mesh yang berjalan di namespace istio-system:
- Cluster Local Gateway: Load balancer di bidang data yang bertanggung jawab untuk menangani traffic internal yang datang dari satu layanan penyajian Knative ke layanan lainnya. Cluster Local Gateway hanya dapat diakses dari dalam cluster GKE Anda dan tidak mendaftarkan domain eksternal untuk mencegah eksposur yang tidak disengaja terhadap informasi pribadi atau proses internal.
- Istio Ingress Gateway: Load balancer di bidang data yang bertanggung jawab untuk menerima dan menangani traffic masuk dari luar cluster, termasuk traffic dari jaringan eksternal atau internal.
- Istiod: Mengonfigurasi Cluster Local Gateway dan Istio Ingress Gateway untuk menangani permintaan HTTP di endpoint yang benar. Istiod adalah komponen bidang kontrol. Untuk mengetahui informasi selengkapnya, lihat Istiod.

Komponen layanan Knative diupdate secara otomatis dengan update cluster bidang kontrol GKE. Untuk mengetahui informasi selengkapnya, lihat Versi GKE yang tersedia.

Penggunaan resource cluster

Penginstalan awal untuk Knative Serving kira-kira memerlukan 1,5 CPU virtual dan memori 1 GB untuk cluster Anda. Jumlah node di cluster Anda tidak memengaruhi persyaratan ruang dan memori untuk penginstalan penayangan Knative.

Activator dapat menggunakan permintaan dengan maksimum 1.000 milliCPU dan RAM 600 MiB. Jika Activator yang ada tidak dapat mendukung jumlah permintaan masuk, Activator tambahan akan diaktifkan, yang memerlukan reservasi 300 milliCPU dan RAM 60 MiB.

Setiap pod yang dibuat oleh layanan penyaluran Knative membuat sidecar proxy antrean yang menerapkan batas serentak permintaan. Proxy antrean memesan 25 miliCPU dan tidak memiliki reservasi memori. Penggunaan proxy antrean bergantung pada jumlah permintaan yang dimasukkan dalam antrean dan ukuran permintaan; tidak ada batasan pada resource CPU dan memori yang dapat dikonsumsinya.

Membuat Layanan

Diagram yang menunjukkan arsitektur layanan inferensi Knative — Arsitektur Layanan Knative (klik untuk memperbesar)

Knative serving memperluas Kubernetes dengan menentukan serangkaian Custom Resource Definitions (CRD): Service, Revision, Configuration, dan Route. CRD ini menentukan dan mengontrol perilaku aplikasi Anda di cluster:

Service inferensi Knative adalah resource kustom tingkat teratas yang ditentukan oleh inferensi Knative. Ini adalah satu aplikasi yang mengelola seluruh siklus proses beban kerja Anda. Layanan Anda memastikan aplikasi Anda memiliki rute, konfigurasi, dan revisi baru untuk setiap update layanan.
Revisi adalah snapshot kode dan konfigurasi yang tidak dapat diubah pada suatu waktu.
Konfigurasi mempertahankan setelan saat ini untuk revisi terbaru Anda dan mencatat histori semua revisi sebelumnya. Memodifikasi konfigurasi akan membuat revisi baru.
Route menentukan endpoint HTTP dan mengaitkan endpoint dengan satu atau beberapa revisi yang akan menerima permintaan.

Saat pengguna membuat Layanan penayangan Knative, hal berikut akan terjadi:

Objek Service Knative serving menentukan:
1. Konfigurasi tentang cara menayangkan revisi Anda.
2. Revisi yang tidak dapat diubah untuk versi layanan ini.
3. Rute untuk mengelola alokasi traffic yang ditentukan ke revisi Anda.
Objek rute membuat VirtualService. Objek VirtualService mengonfigurasi Ingress Gateway dan Cluster Local Gateway untuk merutekan traffic gateway ke revisi yang benar.
Objek revisi membuat komponen bidang kontrol berikut: objek Layanan Kubernetes dan objek Deployment.
Konfigurasi jaringan menghubungkan Activator, Autoscaler, dan load balancer untuk aplikasi Anda.

Penanganan permintaan

Diagram berikut menunjukkan ringkasan tingkat tinggi dari kemungkinan jalur permintaan untuk traffic pengguna melalui komponen bidang data layanan Knative di contoh cluster Google Kubernetes Engine:

Diagram yang menunjukkan arsitektur cluster layanan Knative — Arsitektur cluster Knative serving (klik untuk memperbesar)

Diagram berikutnya memperluas diagram di atas untuk memberikan tampilan mendalam tentang jalur permintaan traffic pengguna, yang juga dijelaskan secara mendetail di bawah:

Diagram yang menunjukkan jalur permintaan penayangan Knative — Jalur permintaan inferensi Knative (klik untuk memperbesar)

Untuk jalur permintaan inferensi Knative:

Traffic tiba melalui:
- Gateway Ingress untuk traffic dari luar cluster
- Cluster Local Gateway untuk traffic dalam cluster
Komponen VirtualService, yang menentukan aturan perutean traffic, mengonfigurasi gateway sehingga traffic pengguna dirutekan ke revisi yang benar.
Layanan Kubernetes, komponen bidang kontrol, menentukan langkah berikutnya dalam jalur permintaan yang bergantung pada ketersediaan pod untuk menangani traffic:
- Jika tidak ada pod dalam revisi:
  1. Activator mengantrekan sementara permintaan yang diterima dan mengirimkan metrik ke Autoscaler untuk menskalakan lebih banyak pod.
  2. Autoscaler menskalakan ke status pod yang diinginkan dalam Deployment.
  3. Deployment membuat lebih banyak pod untuk menerima permintaan tambahan.
  4. Aktivator mencoba ulang permintaan ke sidecar proxy antrean.
- Jika layanan di-scale out (pod tersedia), Layanan Kubernetes akan mengirimkan permintaan ke sidecar proxy antrean.
Sidecar proxy antrean menerapkan parameter antrean permintaan, permintaan thread tunggal atau multi-thread, yang dapat ditangani oleh container dalam satu waktu.
Jika queue proxy sidecar memiliki lebih banyak permintaan daripada yang dapat ditanganinya, Autoscaler akan membuat lebih banyak pod untuk menangani permintaan tambahan.
Sidecar proxy antrean mengirimkan traffic ke container pengguna.