Halaman ini diterjemahkan oleh Cloud Translation API.

Memecahkan masalah cluster Autopilot

Autopilot

Masalah pada cluster Autopilot Google Kubernetes Engine (GKE) dapat memengaruhi ketersediaan dan efisiensi operasional aplikasi Anda. Masalah ini dapat mengganggu seluruh siklus proses aplikasi Anda, mulai dari deployment awal hingga penskalaan di bawah beban.

Gunakan halaman ini untuk mendiagnosis dan menyelesaikan masalah umum khusus untuk cluster Autopilot. Temukan panduan tentang pemecahan masalah pembuatan cluster yang mencegah cluster Anda di-provisioning, masalah penskalaan seperti error out of resources, dan masalah khusus workload seperti error penyimpanan sementara atau Pod yang macet dalam status Pending.

Informasi ini penting bagi developer Aplikasi yang perlu memastikan aplikasi mereka di-deploy dan berjalan lancar, serta bagi admin dan operator Platform yang bertanggung jawab atas keseluruhan kesehatan dan pengelolaan resource cluster Autopilot. Untuk mengetahui informasi selengkapnya tentang peran umum dan contoh tugas yang kami referensikan dalam Google Cloud konten, lihat Peran dan tugas pengguna GKE umum.

Masalah cluster

Tidak dapat membuat cluster: 0 node terdaftar

Masalah berikut terjadi saat Anda mencoba membuat cluster Autopilot dengan akun layanan IAM nonaktif atau tidak memiliki izin yang diperlukan. Pembuatan cluster gagal dengan pesan error berikut:

All cluster resources were brought up, but: only 0 nodes out of 2 have registered.

Untuk mengatasi masalah tersebut, lakukan langkah berikut:

Periksa apakah akun layanan Compute Engine default atau akun layanan IAM kustom yang ingin Anda gunakan sedang nonaktif:
```
gcloud iam service-accounts describe SERVICE_ACCOUNT
```
Ganti SERVICE_ACCOUNT dengan alamat email akun layanan, seperti my-iam-account@my-first-project.iam.gserviceaccount.com.

Jika akun layanan nonaktif, output-nya akan mirip dengan berikut ini:
```
disabled: true
displayName: my-service-account
email: my-service-account@my-project.iam.gserviceaccount.com
...
```

Jika akun layanan nonaktif, aktifkan:

gcloud iam service-accounts enable SERVICE_ACCOUNT

Jika akun layanan sudah aktif dan error tetap berlanjut, berikan izin minimum yang diperlukan untuk GKE kepada akun layanan:

gcloud projects add-iam-policy-binding PROJECT_ID \
    --member "serviceAccount:SERVICE_ACCOUNT" \
    --role roles/container.defaultNodeServiceAccount

Namespace macet dalam status Terminating saat cluster memiliki 0 node

Masalah berikut terjadi saat Anda menghapus namespace di sebuah cluster setelah cluster memperkecil skala hingga nol node. Komponen metrics-server tidak dapat menerima permintaan penghapusan namespace karena komponen tidak memiliki replika.

Untuk mendiagnosis masalah ini, jalankan perintah berikut:

kubectl describe ns/NAMESPACE_NAME

Ganti NAMESPACE_NAME dengan nama namespace.

Output-nya adalah sebagai berikut:

Discovery failed for some groups, 1 failing: unable to retrieve the complete
list of server APIs: metrics.k8s.io/v1beta1: the server is currently unable to
handle the request

Untuk mengatasi masalah ini, tingkatkan skala workload apa pun untuk memicu GKE guna membuat node baru. Saat node sudah siap, permintaan penghapusan namespace akan otomatis selesai. Setelah GKE menghapus namespace, turunkan skala workload.

Masalah penskalaan

Peningkatan skala node gagal: Pod berisiko tidak dijadwalkan

Masalah berikut terjadi jika logging port serial dinonaktifkan di projectGoogle Cloud Anda. Cluster Autopilot GKE memerlukan logging port serial untuk men-debug masalah node secara efektif. Jika logging port serial dinonaktifkan, Autopilot tidak dapat menyediakan node untuk menjalankan workload Anda.

Pesan error di log peristiwa Kubernetes Anda mirip dengan pesan berikut:

LAST SEEN   TYPE      REASON          OBJECT                          MESSAGE
12s         Warning   FailedScaleUp   pod/pod-test-5b97f7c978-h9lvl   Node scale up in zones associated with this pod failed: Internal error. Pod is at risk of not being scheduled

Logging port serial mungkin dinonaktifkan di tingkat organisasi melalui kebijakan organisasi yang menerapkan batasan compute.disableSerialPortLogging. Logging port serial juga dapat dinonaktifkan di tingkat project atau instance virtual machine (VM).

Untuk menyelesaikan masalah ini, lakukan tindakan berikut:

Minta administrator kebijakan organisasi Anda untuk menghapus batasan compute.disableSerialPortLogging dalam project yang berisi cluster Autopilot Anda. Google Cloud
Jika Anda tidak memiliki kebijakan organisasi yang menerapkan batasan ini, coba aktifkan logging port serial di metadata project Anda. Tindakan ini memerlukan izin IAM compute.projects.setCommonInstanceMetadata.

Peningkatan skala node gagal: GCE kehabisan resource

Masalah berikut terjadi saat workload Anda meminta lebih banyak resource daripada yang tersedia untuk digunakan di region atau zona Compute Engine tersebut. Pod Anda mungkin tetap dalam status Pending.

Periksa peristiwa Pod Anda:

kubectl events --for='pod/POD_NAME' --types=Warning

Ganti RESOURCE_NAME dengan nama resource Kubernetes yang tertunda. Contohnya, pod/example-pod.

Outputnya mirip dengan hal berikut ini:

LAST SEEN         TYPE            REASON                  OBJECT                   Message
19m               Warning         FailedScheduling        pod/example-pod          gke.io/optimize-utilization-scheduler  0/2 nodes are available: 2 node(s) didn't match Pod's node affinity/selector. preemption: 0/2 nodes are available: 2 Preemption is not helpful for scheduling.
14m               Warning         FailedScheduling        pod/example-pod          gke.io/optimize-utilization-scheduler  0/2 nodes are available: 2 node(s) didn't match Pod's node affinity/selector. preemption: 0/2 nodes are available: 2 Preemption is not helpful for scheduling.
12m (x2 over 18m) Warning         FailedScaleUp           cluster-autoscaler       Node scale up in zones us-central1-f associated with this pod failed: GCE out of resources. Pod is at risk of not being scheduled.
34s (x3 over 17m) Warning         FailedScaleUp           cluster-autoscaler       Node scale up in zones us-central1-b associated with this pod failed: GCE out of resources. Pod is at risk of not being scheduled.

Untuk mengatasi masalah ini, coba langkah-langkah berikut:

Deploy Pod di region atau zona yang berbeda. Jika Pod Anda memiliki batasan zonal seperti pemilih topologi, hapus batasan tersebut jika Anda bisa. Untuk mengetahui petunjuknya, lihat Menempatkan Pod GKE di zona tertentu.
Buat cluster di region lain dan coba lagi deployment.
Coba gunakan kelas komputasi yang berbeda. Class komputasi yang didukung oleh jenis mesin Compute Engine yang lebih kecil cenderung memiliki resource yang tersedia. Misalnya, jenis mesin default untuk Autopilot memiliki ketersediaan tertinggi. Untuk mengetahui daftar class komputasi dan jenis mesin yang sesuai, lihat Kapan harus menggunakan class komputasi tertentu.
Jika Anda menjalankan workload GPU, GPU yang diminta mungkin tidak tersedia di lokasi node Anda. Coba deploy workload Anda di lokasi lain atau minta jenis GPU lain.

Untuk menghindari masalah peningkatan skala yang disebabkan oleh ketersediaan resource pada masa mendatang, pertimbangkan pendekatan berikut:

Gunakan PriorityClass Kubernetes untuk menyediakan kapasitas komputasi tambahan secara konsisten di cluster Anda. Untuk mengetahui detailnya, lihat Menyediakan kapasitas komputasi tambahan untuk penskalaan Pod yang cepat.
Gunakan reservasi kapasitas Compute Engine dengan class komputasi Performa atau Akselerator. Untuk mengetahui detailnya, lihat Menggunakan resource zona yang dicadangkan.

Node gagal ditingkatkan skalanya: Resource zona pod terlampaui

Masalah berikut terjadi saat Autopilot tidak menyediakan node baru untuk Pod di zona tertentu karena node baru akan melanggar batas resource.

Pesan error di log Anda mirip dengan berikut ini:

    "napFailureReasons": [
            {
              "messageId": "no.scale.up.nap.pod.zonal.resources.exceeded",
              ...

Error ini merujuk ke peristiwa noScaleUp, di mana penyediaan node secara otomatis tidak menghasilkan grup node apa pun untuk Pod di zona itu.

Jika Anda mengalami error ini, konfirmasi hal berikut:

Pod Anda memiliki memori dan CPU yang memadai.
Rentang CIDR alamat IP pod cukup besar untuk mendukung ukuran cluster maksimum yang Anda harapkan.

Masalah workload

Workload mengalami error penyimpanan efemeral

GKE tidak akan membuat Pod jika permintaan penyimpanan sementara Pod Anda melebihi maksimum 10 GiB di Autopilot pada GKE versi 1.28.6-gke.1317000 dan yang lebih baru.

Untuk mendiagnosis masalah ini, jelaskan pengontrol workload, seperti Deployment atau Job:

kubectl describe CONTROLLER_TYPE/CONTROLLER_NAME

Ganti kode berikut:

CONTROLLER_TYPE: jenis pengontrol beban kerja, seperti replicaset atau daemonset. Untuk mengetahui daftar jenis pengontrol, lihat Pengelolaan workload.
CONTROLLER_NAME: nama workload yang macet.

Jika Pod tidak dibuat karena permintaan penyimpanan sementara melebihi maksimum, output-nya akan terlihat seperti berikut:

# lines omitted for clarity

Events:

{"[denied by autogke-pod-limit-constraints]":["Max ephemeral-storage requested by init containers for workload '' is higher than the Autopilot maximum of '10Gi'.","Total ephemeral-storage requested by containers for workload '' is higher than the Autopilot maximum of '10Gi'."]}

Untuk mengatasi masalah ini, perbarui permintaan penyimpanan efemeral Anda sehingga total penyimpanan efemeral yang diminta oleh container workload dan oleh container yang disisipkan webhook kurang dari atau sama dengan maksimum yang diizinkan. Untuk mengetahui informasi selengkapnya tentang nilai maksimum, lihat Permintaan resource di Autopilot untuk konfigurasi workload.

Pod terjebak dalam status Pending

Pod mungkin macet dalam status Pending jika Anda memilih node tertentu untuk digunakan Pod, tetapi jumlah permintaan resource di Pod dan DaemonSets yang harus berjalan di node melebihi kapasitas maksimum yang dapat dialokasikan untuk node tersebut. Hal ini dapat menyebabkan Pod Anda mendapatkan status Pending dan tetap tidak terjadwal.

Untuk menghindari masalah ini, evaluasi workload yang di-deploy guna memastikan ukurannya tidak melampaui batas permintaan resource maksimum yang didukung untuk Autopilot.

Anda juga dapat mencoba menjadwalkan DaemonSets sebelum menjadwalkan Pod workload reguler.

Performa workload di node tertentu selalu tidak dapat diandalkan

Pada GKE versi 1.24 dan yang lebih baru, jika workload di node tertentu terus-menerus mengalami gangguan, error, atau perilaku negatif serupa, Anda dapat memberi tahu GKE tentang node yang bermasalah dengan menutup aksesnya menggunakan perintah berikut:

kubectl drain NODE_NAME --ignore-daemonsets

Ganti NODE_NAME dengan nama node yang bermasalah. Anda dapat menemukan nama node dengan menjalankan kubectl get nodes.

GKE melakukan hal berikut:

Mengeluarkan workload yang ada dari node dan menghentikan penjadwalan workload di node tersebut.
Otomatis membuat ulang workload yang dikeluarkan yang dikelola oleh pengontrol, seperti Deployment atau StatefulSet, di node lain.
Menghentikan workload apa pun yang masih ada di node dan memperbaiki atau membuat ulang node tersebut dari waktu ke waktu.
Jika Anda menggunakan Autopilot, GKE akan langsung mematikan dan mengganti node tersebut serta mengabaikan semua PodDisruptionBudget yang telah dikonfigurasi.

Pod memerlukan waktu lebih lama dari yang diperkirakan untuk dijadwalkan di cluster kosong

Peristiwa ini terjadi saat Anda men-deploy workload ke cluster Autopilot yang tidak memiliki workload lain. Cluster Autopilot dimulai dengan nol node yang dapat digunakan dan diskalakan ke nol node jika cluster kosong untuk menghindari resource komputasi yang tidak digunakan dalam cluster. Men-deploy workload di cluster yang memiliki nol node akan memicu peristiwa penskalaan.

Jika Anda mengalami hal ini, Autopilot berfungsi sebagaimana mestinya, dan tidak ada tindakan yang perlu dilakukan. Workload Anda akan di-deploy seperti yang diharapkan setelah node baru di-booting.

Periksa apakah Pod Anda sedang menunggu node baru:

Deskripsikan Pod yang tertunda:
```
kubectl describe pod POD_NAME
```
Ganti POD_NAME dengan nama Pod yang tertunda.

Periksa bagian Events output. Jika Pod sedang menunggu node baru, output-nya akan mirip dengan berikut ini:

Events:
  Type     Reason            Age   From                                   Message
  ----     ------            ----  ----                                   -------
  Warning  FailedScheduling  11s   gke.io/optimize-utilization-scheduler  no nodes available to schedule pods
  Normal   TriggeredScaleUp  4s    cluster-autoscaler                     pod triggered scale-up: [{https://www.googleapis.com/compute/v1/projects/example-project/zones/example-zone/instanceGroups/gk3-example-cluster-pool-2-9293c6db-grp 0->1 (max: 1000)} {https://www.googleapis.com/compute/v1/projects/example-project/zones/example-zone/instanceGroups/gk3-example-cluster-pool-2-d99371e7-grp 0->1 (max: 1000)}]

Peristiwa TriggeredScaleUp menunjukkan bahwa cluster Anda melakukan penskalaan dari nol node hingga jumlah node yang diperlukan untuk menjalankan workload yang di-deploy.

Pod Sistem gagal dijadwalkan di cluster kosong

Peristiwa ini terjadi saat tidak ada workload Anda yang berjalan di cluster, yang menyebabkan cluster diturunkan skalanya menjadi nol node. Cluster Autopilot dimulai dengan nol node yang dapat digunakan dan diperkecil skalanya menjadi nol node jika Anda tidak menjalankan workload apa pun di cluster. Perilaku ini meminimalkan pemborosan sumber daya komputasi di cluster.

Saat cluster diperkecil skalanya menjadi nol node, workload sistem GKE tidak akan dijadwalkan dan tetap dalam status Pending. Ini adalah perilaku yang diharapkan dan tidak ada tindakan yang perlu dilakukan. Pada saat berikutnya Anda men-deploy beban kerja ke cluster, GKE akan menskalakan cluster dan Pod sistem yang tertunda akan berjalan di node tersebut.

Untuk memeriksa apakah Pod sistem tertunda karena cluster kosong, lakukan hal berikut:

Periksa apakah cluster Anda memiliki node:
```
kubectl get nodes
```
Output-nya adalah sebagai berikut, yang menunjukkan bahwa cluster memiliki nol node:
```
No resources found
```

Periksa status Pod sistem:

kubectl get pods --namespace=kube-system

Outputnya mirip dengan hal berikut ini:

NAME                                                       READY   STATUS    RESTARTS   AGE
antrea-controller-horizontal-autoscaler-6d97f7cf7c-ngfd2   0/1     Pending   0          9d
egress-nat-controller-84bc985778-6jcwl                     0/1     Pending   0          9d
event-exporter-gke-5c5b457d58-7njv7                        0/2     Pending   0          3d5h
event-exporter-gke-6cd5c599c6-bn665                        0/2     Pending   0          9d
konnectivity-agent-694b68fb7f-gws8j                        0/2     Pending   0          3d5h
konnectivity-agent-7d659bf64d-lp4kt                        0/2     Pending   0          9d
konnectivity-agent-7d659bf64d-rkrw2                        0/2     Pending   0          9d
konnectivity-agent-autoscaler-5b6ff64fcd-wn7fw             0/1     Pending   0          9d
konnectivity-agent-autoscaler-cc5bd5684-tgtwp              0/1     Pending   0          3d5h
kube-dns-65ccc769cc-5q5q7                                  0/5     Pending   0          3d5h
kube-dns-7f7cdb9b75-qkq4l                                  0/5     Pending   0          9d
kube-dns-7f7cdb9b75-skrx4                                  0/5     Pending   0          9d
kube-dns-autoscaler-6ffdbff798-vhvkg                       0/1     Pending   0          9d
kube-dns-autoscaler-8b7698c76-mgcx8                        0/1     Pending   0          3d5h
l7-default-backend-87b58b54c-x5q7f                         0/1     Pending   0          9d
metrics-server-v1.31.0-769c5b4896-t5jjr                    0/1     Pending   0          9d

Periksa alasan mengapa Pod sistem memiliki status Pending:

kubectl describe pod --namespace=kube-system SYSTEM_POD_NAME

Ganti SYSTEM_POD_NAME dengan nama Pod sistem dari output perintah sebelumnya.

Outputnya mirip dengan hal berikut ini:

...
Events:
Type     Reason            Age                       From               Message
----     ------            ----                      ----               -------
Warning  FailedScheduling  4m35s (x27935 over 3d5h)  default-scheduler  no nodes available to schedule pods
...

Dalam output, nilai no nodes available to schedule pods di kolom Message untuk peristiwa FailedScheduling menunjukkan bahwa Pod sistem tidak dijadwalkan karena cluster kosong.

Error terkait izin saat mencoba menjalankan tcpdump dari Pod di Autopilot GKE

Akses ke node pokok dilarang di cluster Autopilot GKE. Oleh karena itu, Anda harus menjalankan utilitas tcpdump dari dalam Pod, lalu menyalinnya menggunakan perintah kubectl cp. Jika Anda biasanya menjalankan utilitas tcpdump dari dalam Pod di cluster Autopilot GKE, Anda mungkin melihat error berikut:

    tcpdump: eth0: You don't have permission to perform this capture on that device
    (socket: Operation not permitted)

Hal ini terjadi karena GKE Autopilot, secara default, menerapkan konteks keamanan ke semua Pod yang menurunkan kemampuan NET_RAW untuk memitigasi potensi kerentanan. Contoh:

apiVersion: v1
kind: Pod
metadata:
  labels:
    app: tcpdump
  name: tcpdump
spec:
  containers:
  - image: nginx
    name: nginx
    resources:
      limits:
        cpu: 500m
        ephemeral-storage: 1Gi
        memory: 2Gi
      requests:
        cpu: 500m
        ephemeral-storage: 1Gi
        memory: 2Gi
    securityContext:
      capabilities:
        # This section drops NET_RAW to mitigate security vulnerabilities
        drop:
        - NET_RAW

Sebagai solusi, jika workload Anda memerlukan kemampuan NET_RAW, Anda dapat mengaktifkannya kembali:

Tambahkan kemampuan NET_RAW ke bagian securityContext spesifikasi YAML Pod Anda:
```
securityContext:
  capabilities:
    add:
    - NET_RAW
```

Jalankan tcpdump dari dalam Pod:

tcpdump port 53 -w packetcap.pcap
tcpdump: listening on eth0, link-type EN10MB (Ethernet), snapshot length 262144 bytes

Gunakan perintah kubectl cp untuk menyalinnya ke komputer lokal Anda untuk analisis lebih lanjut:
```
kubectl cp POD_NAME:/PATH_TO_FILE/FILE_NAME/PATH_TO_FILE/FILE_NAME
```
Gunakan kubectl exec untuk menjalankan perintah tcpdump guna melakukan penangkapan paket jaringan dan mengalihkan output:
```
kubectl exec -it POD_NAME -- bash -c "tcpdump port 53 -w -" > packet-new.pcap
```

Langkah berikutnya

Jika Anda tidak dapat menemukan solusi untuk masalah Anda dalam dokumentasi, lihat Mendapatkan dukungan untuk mendapatkan bantuan lebih lanjut, termasuk saran tentang topik berikut:
- Membuka kasus dukungan dengan menghubungi Layanan Pelanggan Cloud.
- Mendapatkan dukungan dari komunitas dengan mengajukan pertanyaan di StackOverflow dan menggunakan tag google-kubernetes-engine untuk menelusuri masalah serupa. Anda juga dapat bergabung ke #kubernetes-engine channel Slack untuk mendapatkan dukungan komunitas lainnya.
- Membuka bug atau permintaan fitur menggunakan issue tracker publik.