Alat gkectl
memiliki dua perintah untuk memecahkan masalah terkait cluster:
gkectl diagnose cluster
dan gkectl diagnose snapshot
. Perintah tersebut berfungsi
dengan cluster admin dan pengguna. Dokumen ini menunjukkan cara menggunakan
gkectl diagnose
untuk mendiagnosis masalah di cluster Anda.
Untuk mengetahui informasi selengkapnya, cara menggunakan perintah gkectl diagnose snapshot
untuk
membuat snapshot yang dapat membantu Cloud Customer Care mendiagnosis masalah, melihat
Buat snapshot untuk mendiagnosis cluster.
gkectl diagnose cluster
Perintah ini melakukan health check pada cluster Anda dan melaporkan error. Tujuan perintah ini menjalankan health check pada komponen berikut:
- vCenter
- Kredensial
- DRS
- Kelompok anti-afinitas
- Jaringan
- Versi
- Pusat Data
- Datastore
- ResourcePool
- Folder
- Jaringan
- Load balancer (F5, Seesaw, atau Manual)
- Cluster pengguna dan node pool
- Objek cluster
- Kesiapan server konektivitas cluster pengguna
- Objek mesin dan node cluster yang sesuai
- Pod dalam namespace
kube-system
dangke-system
- Bidang kontrol
- Volume persisten vSphere di cluster
- Sinyal pertentangan memori dan vCPU (CPU virtual) pengguna dan admin
- Cluster pengguna dan admin ESXi alarm Penggunaan CPU dan Penggunaan Memori Host yang telah dikonfigurasi sebelumnya.
- Waktu (TOD)
- Kebijakan jaringan node untuk cluster dengan Dataplane V2 diaktifkan
- Kesehatan agen node Dataplane V2 secara keseluruhan
Mendiagnosis cluster admin
Untuk mendiagnosis cluster admin, tentukan jalur ke cluster admin Anda:
gkectl diagnose cluster --kubeconfig=ADMIN_CLUSTER_KUBECONFIG
Ganti ADMIN_CLUSTER_KUBECONFIG
dengan jalur
file kubeconfig cluster admin Anda.
Contoh output berikut ditampilkan dari gkectl diagnose cluster
berikut:
Preparing for the diagnose tool...
Diagnosing the cluster......DONE
- Validation Category: Admin Cluster Connectivity
Checking VMs TOD (availability)...SUCCESS
Checking Konnectivity Server (readiness)...SUCCESS
- Validation Category: Admin Cluster F5 BIG-IP
Checking f5 (credentials, partition)...SUCCESS
- Validation Category: Admin Cluster VCenter
Checking Credentials...SUCCESS
Checking DRS enabled...SUCCESS
Checking Hosts for AntiAffinityGroups...SUCCESS
Checking Version...SUCCESS
Checking Datacenter...SUCCESS
Checking Datastore...SUCCESS
Checking Resource pool...SUCCESS
Checking Folder...SUCCESS
Checking Network...SUCCESS
- Validation Category: Admin Cluster
Checking cluster object...SUCCESS
Checking machine deployment...SUCCESS
Checking machineset...SUCCESS
Checking machine objects...SUCCESS
Checking kube-system pods...SUCCESS
Checking anthos-identity-service pods...SUCCESS
Checking storage...SUCCESS
Checking resource...SUCCESS
Checking virtual machine resource contention...SUCCESS
Checking host resource contention...SUCCESS
All validation results were SUCCESS.
Cluster is healthy!
Jika ada masalah dengan alamat IP virtual (VIP) di cluster target,
gunakan flag --config
untuk memberikan file konfigurasi cluster admin
memberikan informasi proses debug selengkapnya.
gkectl diagnose cluster --kubeconfig ADMIN_CLUSTER_KUBECONFIG --config CLUSTER_CONFIG
Ganti CLUSTER_CONFIG
dengan jalur admin
atau file konfigurasi cluster pengguna.
Contoh output berikut menunjukkan bahwa perintah gkectl diagnose cluster
kini dapat terhubung ke cluster dengan benar dan memeriksa masalah:
Failed to access the api server via LB VIP "...": ...
Try to use the admin master IP instead of problematic VIP...
Reading config with version "[CONFIG_VERSION]"
Finding the admin master VM...
Fetching the VMs in the resource pool "[RESOURCE_POOL_NAME]"...
Found the "[ADMIN_MASTER_VM_NAME]" is the admin master VM.
Diagnosing admin|user cluster "[TARGET_CLUSTER_NAME]"...
...
Mendiagnosis cluster pengguna
Untuk mendiagnosis cluster pengguna, Anda harus menentukan nama cluster pengguna. Jika Anda memerlukan untuk mendapatkan nama cluster pengguna, jalankan perintah berikut:
kubectl get cluster --kubeconfig=USER_CLUSTER_KUBECONFIG
Ganti USER_CLUSTER_KUBECONFIG
dengan jalur
file kubeconfig cluster pengguna.
Tentukan nama cluster pengguna beserta file konfigurasi sebagai berikut:
gkectl diagnose cluster --kubeconfig=ADMIN_CLUSTER_KUBECONFIG \ --cluster-name=USER_CLUSTER_NAME
Ganti USER_CLUSTER_NAME
dengan nama pengguna
.
Contoh output berikut ditampilkan dari gkectl diagnose cluster
berikut:
Preparing for the diagnose tool...
Diagnosing the cluster......DONE
Diagnose result is saved successfully in <DIAGNOSE_REPORT_JSON_FILE>
- Validation Category: User Cluster Connectivity
Checking Node Network Policy...SUCCESS
Checking VMs TOD (availability)...SUCCESS
Checking Dataplane-V2...Success
- Validation Category: User Cluster F5 BIG-IP
Checking f5 (credentials, partition)...SUCCESS
- Validation Category: User Cluster VCenter
Checking Credentials...SUCCESS
Checking DRS enabled...SUCCESS
Checking Hosts for AntiAffinityGroups...SUCCESS
Checking VSphere CSI Driver...SUCCESS
Checking Version...SUCCESS
Checking Datacenter...SUCCESS
Checking Datastore...SUCCESS
Checking Resource pool...SUCCESS
Checking Folder...SUCCESS
Checking Network...SUCCESS
- Validation Category: User Cluster
Checking user cluster and node pools...SUCCESS
Checking cluster object...SUCCESS
Checking machine deployment...SUCCESS
Checking machineset...SUCCESS
Checking machine objects...SUCCESS
Checking control plane pods...SUCCESS
Checking kube-system pods...SUCCESS
Checking gke-system pods...SUCCESS
Checking gke-connect pods...SUCCESS
Checeking anthos-identity-service pods...SUCCESS
Checking storage...SUCCESS
Checking resource...SUCCESS
Checking virtual machine resource contention...SUCCESS
Checking host resource contention...SUCCESS
All validation results were SUCCESS.
Cluster is healthy!
Mendiagnosis status virtual machine
Jika muncul masalah terkait pembuatan virtual machine, jalankan gkectl diagnose cluster
untuk mendapatkan diagnosis
status virtual machine.
Outputnya mirip dengan hal berikut ini:
- Validation Category: Cluster Healthiness
Checking cluster object...SUCCESS
Checking machine deployment...SUCCESS
Checking machineset...SUCCESS
Checking machine objects...SUCCESS
Checking machine VMs...FAILURE
Reason: 1 machine VMs error(s).
Unhealthy Resources:
Machine [NODE_NAME]: The VM's UUID "420fbe5c-4c8b-705a-8a05-ec636406f60" does not match the machine object's providerID "420fbe5c-4c8b-705a-8a05-ec636406f60e".
Debug Information:
null
...
Exit with error:
Cluster is unhealthy!
Run gkectl diagnose cluster automatically in gkectl diagnose snapshot
Public page https://cloud.google.com/anthos/clusters/docs/on-prem/latest/diagnose#overview_diagnose_snapshot
Memecahkan masalah
Tabel berikut menguraikan beberapa kemungkinan resolusi untuk masalah dalam menjalankan
perintah gkectl diagnose cluster
:
Masalah | Kemungkinan penyebab | Resolusi |
---|---|---|
Server Kubernetes API tidak dapat dijangkau, baik untuk cluster admin maupun cluster pengguna. | Periksa grafik latensi memori OOB (out-of-box) kesehatan virtual machine, yang idealnya harus memiliki latensi memori sekitar nol. Pertentangan memori juga dapat meningkatkan pertentangan CPU, dan grafik kesiapan CPU mungkin mengalami lonjakan karena akan terjadi pertukaran. | Meningkatkan memori fisik. Untuk opsi lainnya, lihat Saran pemecahan masalah VMware. |
Waktu pembuatan Nodepool habis. | Latensi baca/tulis tinggi VMDK. Periksa OOB kondisi VM untuk latensi baca dan tulis disk virtual. Menurut VMware, total latensi yang lebih besar dari 20 milidetik mengindikasikan adanya masalah. | Lihat Solusi VMware untuk masalah performa disk. |
BundleUnexpectedDiff
error
Resource Kubernetes Cluster API yang dikelola oleh paket Google Distributed Cloud mungkin secara tidak sengaja dimodifikasi yang dapat menyebabkan kegagalan komponen sistem, atau kegagalan upgrade atau update cluster.
Di Google Distributed Cloud versi 1.13 dan yang lebih baru,
onprem-user-cluster-controller
memeriksa status objek secara berkala, dan
melaporkan perbedaan yang tidak terduga dari
keadaan yang diinginkan melalui log dan
peristiwa. Objek ini mencakup bidang kontrol cluster pengguna dan add-on seperti
dan DaemonSets.
Contoh output berikut menunjukkan peristiwa perbedaan yang tidak terduga:
Type Reason Age From Message
---- ------ ---- ---- -------
Warning BundleUnexpectedDiff 13m onpremusercluster/ci-bundle-diff Detected unexpected difference of user control plane objects: [ConfigMap/istio], please check onprem-user-cluster-controller logs for more details.
Contoh {i>output<i} berikut menunjukkan log yang dibuat oleh
onprem-user-cluster-controller
:
2022-08-06T02:54:42.701352295Z W0806 02:54:42.701252 1 update.go:206] Detected unexpected difference of user addon object(ConfigMap/istio), Diff: map[string]string{
2022-08-06T02:54:42.701376406Z - "mesh": (
2022-08-06T02:54:42.701381190Z - """
2022-08-06T02:54:42.701385438Z - defaultConfig:
2022-08-06T02:54:42.701389350Z - discoveryAddress: istiod.gke-system.svc:15012
...
2022-08-06T02:54:42.701449954Z - """
2022-08-06T02:54:42.701453099Z - ),
2022-08-06T02:54:42.701456286Z - "meshNetworks": "networks: {}",
2022-08-06T02:54:42.701459304Z + "test-key": "test-data",
2022-08-06T02:54:42.701462434Z }
Peristiwa dan log tidak akan memblokir operasi cluster. Objek yang memiliki perbedaan tak terduga dari keadaan yang mereka inginkan akan ditimpa di upgrade cluster.