Halaman ini diterjemahkan oleh Cloud Translation API.

Menggunakan GKE Dataplane V2

Autopilot Standard

Halaman ini menjelaskan cara mengaktifkan dan memecahkan masalah GKE Dataplane V2 untuk cluster Google Kubernetes Engine (GKE).

Cluster Autopilot baru memiliki GKE Dataplane V2 yang diaktifkan pada versi 1.22.7-gke.1500 dan yang lebih baru serta versi 1.23.4-gke.1500 dan yang lebih baru. Jika Anda mengalami masalah saat menggunakan GKE Dataplane V2, lanjutkan ke Pemecahan masalah.

Membuat cluster GKE dengan GKE Dataplane V2

Anda dapat mengaktifkan GKE Dataplane V2 saat membuat cluster baru dengan GKE versi 1.20.6-gke.700 dan yang lebih baru menggunakan gcloud CLI atau GKE API. Anda juga dapat mengaktifkan GKE Dataplane V2 di Pratinjau saat membuat cluster baru menggunakan GKE versi 1.17.9 dan yang lebih baru

Konsol

Untuk membuat cluster baru dengan GKE Dataplane V2, lakukan tugas berikut:

Di konsol Google Cloud , buka halaman Create a Kubernetes cluster.
Buka Membuat cluster Kubernetes
Di bagian Networking, pilih kotak centang Aktifkan Dataplane V2. Opsi Aktifkan Kebijakan Jaringan Kubernetes akan dinonaktifkan saat Anda memilih Aktifkan Dataplane V2 karena penerapan kebijakan jaringan disertakan dalam GKE Dataplane V2.
Klik Buat.

gcloud

Untuk membuat cluster baru dengan GKE Dataplane V2, gunakan perintah berikut:

gcloud container clusters create CLUSTER_NAME \
    --enable-dataplane-v2 \
    --enable-ip-alias \
    --release-channel CHANNEL_NAME \
    --location COMPUTE_LOCATION

Ganti kode berikut:

CLUSTER_NAME: nama cluster baru.
CHANNEL_NAME: saluran rilis yang menyertakan GKE versi 1.20.6-gke.700 atau yang lebih baru. Jika memilih untuk tidak menggunakan saluran rilis, Anda juga dapat menggunakan tanda --cluster-version, bukan --release-channel, dengan menentukan versi 1.20.6-gke.700 atau yang lebih baru.
COMPUTE_LOCATION: lokasi Compute Engine untuk cluster baru.

API

Untuk membuat cluster baru dengan GKE Dataplane V2, tentukan kolom datapathProvider di objek networkConfig di permintaan create cluster Anda.

Cuplikan JSON berikut menunjukkan konfigurasi yang diperlukan untuk mengaktifkan GKE Dataplane V2:

"cluster":{
   "initialClusterVersion":"VERSION",
   "ipAllocationPolicy":{
      "useIpAliases":true
   },
   "networkConfig":{
      "datapathProvider":"ADVANCED_DATAPATH"
   },
   "releaseChannel":{
      "channel":"CHANNEL_NAME"
   }
}

Ganti kode berikut:

VERSION: versi cluster Anda yang harus berupa GKE 1.20.6-gke.700 atau yang lebih baru.
CHANNEL_NAME: saluran rilis yang menyertakan GKE versi 1.20.6-gke.700 atau yang lebih baru.

Memecahkan masalah pada GKE Dataplane V2

Bagian ini menunjukkan cara menyelidiki dan menyelesaikan masalah pada GKE Dataplane V2.

Pastikan GKE Dataplane V2 telah diaktifkan:
```
kubectl -n kube-system get pods -l k8s-app=cilium -o wide
```
Jika GKE Dataplane V2 berjalan, output-nya akan menyertakan Pod dengan awalan anetd-. anetd adalah pengontrol jaringan untuk GKE Dataplane V2.
Jika masalah ini terkait dengan penerapan kebijakan jaringan atau layanan, periksa log Pod anetd. Gunakan pemilih log berikut di Cloud Logging:
```
resource.type="k8s_container"
labels."k8s-pod/k8s-app"="cilium"
resource.labels.cluster_name="CLUSTER_NAME"
```
Jika pembuatan Pod gagal, periksa log kubelet untuk mendapatkan petunjuk. Gunakan pemilih log berikut di Cloud Logging:
```
resource.type="k8s_node"
log_name=~".*/logs/kubelet"
resource.labels.cluster_name="CLUSTER_NAME"
```
Ganti CLUSTER_NAME dengan nama cluster, atau hapus seluruhnya untuk melihat log semua cluster.
Jika Pod anetd tidak berjalan, periksa ConfigMap cilium-config untuk mengetahui apakah ada modifikasi. Hindari mengubah kolom yang ada dalam ConfigMap ini, karena perubahan tersebut dapat mengganggu stabilitas cluster dan mengganggu anetd. ConfigMap akan di-patch kembali ke status default hanya jika kolom baru ditambahkan ke ConfigMap. Perubahan pada kolom yang ada tidak akan ditambal kembali, dan sebaiknya jangan mengubah atau menyesuaikan ConfigMap.

Masalah umum

Masalah konektivitas terputus-putus yang terkait dengan konflik rentang `NodePort` di cluster GKE Dataplane V2

Di cluster GKE Dataplane V2, masalah konektivitas terputus-putus dapat terjadi untuk traffic yang di-masquerade atau dengan penggunaan port sementara. Masalah ini disebabkan oleh potensi konflik port dengan rentang NodePort yang dicadangkan dan biasanya terjadi dalam skenario berikut:

ip-masq-agent Kustom: Jika Anda menggunakan ip-masq-agent kustom (versi 2.10 atau yang lebih baru), dengan cluster yang memiliki layanan NodePort atau Load Balancer, Anda mungkin mengalami masalah konektivitas terputus-putus karena konflik dengan rentang NodePort. Sejak versi 2.10 dan yang lebih baru, argumen --random-fully di ip-masq-agent diterapkan secara internal secara default. Untuk memitigasi hal ini, tetapkan --random-fully=false secara eksplisit (berlaku sejak versi 2.11) di bagian argumen dalam konfigurasi ip-masq-agent Anda. Untuk mengetahui detail konfigurasi, lihat Mengonfigurasi agen penyamaran IP di cluster Standard.
Tumpang-tindih rentang port efemeral: Jika rentang port efemeral yang ditentukan oleh net.ipv4.ip_local_port_range di node GKE Anda tumpang-tindih dengan rentang NodePort (30000-32767), hal ini juga dapat memicu masalah konektivitas. Untuk mencegah masalah ini, pastikan kedua rentang ini tidak tumpang-tindih.

Tinjau setelan konfigurasi ip-masq-agent dan rentang port sementara untuk memastikan tidak bertentangan dengan rentang NodePort. Jika Anda mengalami masalah konektivitas yang tidak konsisten, pertimbangkan kemungkinan penyebab berikut dan sesuaikan konfigurasi Anda.

Masalah konektivitas dengan `hostPort` di cluster GKE Dataplane V2

Versi GKE yang terpengaruh: 1.29 dan yang lebih baru

Di cluster yang menggunakan GKE Dataplane V2, Anda mungkin mengalami kegagalan konektivitas saat traffic menargetkan IP:Port node dengan port adalah hostPort yang ditentukan di Pod. Masalah ini muncul dalam dua skenario utama:

Node dengan hostPort di belakang Load Balancer Jaringan passthrough:

hostPort mengikat Pod ke port node tertentu, dan Load Balancer Jaringan passthrough mendistribusikan traffic ke semua node. Saat Anda mengekspos Pod ke internet menggunakan hostPort dan Load Balancer Jaringan passthrough, load balancer mungkin mengirim traffic ke node tempat Pod tidak berjalan, sehingga menyebabkan kegagalan koneksi. Hal ini disebabkan oleh batasan umum di GKE Dataplane V2 yang menyebabkan traffic Network Load Balancer passthrough tidak diteruskan secara konsisten ke Pod hostPort.

Solusi: Saat mengekspos hostPort Pod di node dengan Load Balancer Jaringan passthrough, tentukan alamat IP internal atau eksternal Load Balancer Jaringan di kolom hostIP Pod.
```
ports:
- containerPort: 62000
  hostPort: 62000
  protocol: TCP
  hostIP: 35.232.62.64
- containerPort: 60000
  hostPort: 60000
  protocol: TCP
  hostIP: 35.232.62.64
  # Assuming 35.232.62.64 is the external IP address of a passthrough Network Load Balancer.
```
Konflik hostPort dengan rentang NodePort yang dicadangkan:

Jika hostPort Pod bertentangan dengan rentang NodePort yang dicadangkan (30000-32767), Cilium mungkin gagal meneruskan traffic ke Pod. Perilaku ini telah diamati di cluster versi 1.29 dan yang lebih baru karena Cilium kini mengelola kemampuan hostPort, menggantikan metode Portmap sebelumnya. Hal ini adalah perilaku yang diharapkan untuk Cilium dan disebutkan dalam dokumentasi publiknya.

Kami tidak berencana memperbaiki batasan ini di versi berikutnya. Penyebab utama masalah ini terkait dengan perilaku Cilium dan berada di luar kontrol langsung GKE.

Rekomendasi: Sebaiknya Anda bermigrasi ke Layanan NodePort, bukan hostPort, untuk meningkatkan keandalan. Layanan NodePort menyediakan kemampuan yang serupa.

Rentang port Kebijakan Jaringan tidak diterapkan

Jika Anda menentukan kolom endPort di Kebijakan Jaringan di cluster yang telah mengaktifkan GKE Dataplane V2, kolom tersebut tidak akan diterapkan.

Mulai GKE 1.22, Anda dapat menggunakan Kubernetes Network Policy API untuk menentukan berbagai port tempat Kebijakan Jaringan diterapkan. API ini didukung dalam cluster dengan Kebijakan Jaringan Calico, tetapi tidak didukung di cluster yang menggunakan GKE Dataplane V2.

Anda dapat memverifikasi perilaku objek NetworkPolicy dengan membacanya kembali setelah selesai menulisnya ke server API. Jika objek masih berisi kolom endPort, fitur ini akan diterapkan. Jika kolom endPort tidak ada, fitur tidak akan diterapkan. Untuk semua kasus, objek yang disimpan di server API adalah sumber tepercaya untuk Kebijakan Jaringan.

Untuk mengetahui informasi selengkapnya, lihat KEP-2079: Kebijakan Jaringan untuk mendukung Rentang Port.

Pod menampilkan pesan error `failed to allocate for range 0: no IP addresses available in range set`

Versi GKE yang terpengaruh: 1.22 hingga 1.25

Cluster GKE yang menjalankan node pool yang menggunakan container dan mengaktifkan GKE Dataplane V2 dapat mengalami masalah kebocoran alamat IP dan menghabiskan semua alamat IP Pod pada node. Pod yang dijadwalkan di node yang terpengaruh akan menampilkan pesan error yang mirip dengan berikut ini:

failed to allocate for range 0: no IP addresses available in range set: 10.48.131.1-10.48.131.62

Untuk mengetahui informasi selengkapnya tentang masalah tersebut, lihat masalah container #5768.

Versi tetap

Untuk memperbaiki masalah ini, upgrade cluster Anda ke salah satu versi GKE berikut:

1.22.17-gke.3100 atau yang lebih baru.
1.23.16-gke.200 atau yang lebih baru.
1.24.9-gke.3200 atau yang lebih baru.
1.25.6-gke.200 atau yang lebih baru.

Solusi untuk cluster GKE standar

Anda dapat mengurangi masalah ini dengan menghapus alamat IP Pod yang bocor untuk node tersebut.

Untuk menghapus alamat IP Pod yang bocor, Anda harus mendapatkan kredensial autentikasi untuk cluster lalu menjalankan langkah-langkah berikut untuk membersihkan satu node, jika Anda tahu namanya.

Simpan skrip shell berikut ke file bernama cleanup.sh:

for hash in $(sudo find /var/lib/cni/networks/gke-pod-network -iregex '/var/lib/cni/networks/gke-pod-network/[0-9].*' -exec head -n1 {} \;); do hash="${hash%%[[:space:]]}"; if [ -z $(sudo ctr -n k8s.io c ls | grep $hash | awk '{print $1}') ]; then sudo grep -ilr $hash /var/lib/cni/networks/gke-pod-network; fi; done | sudo xargs -r rm

Jalankan skrip di node cluster:

gcloud compute ssh --zone "ZONE" --project "PROJECT" NODE_NAME --command "$(cat cleanup.sh)"

Ganti NODE_NAME dengan nama node.

Anda juga dapat menjalankan versi DaemonSet skrip ini agar berjalan secara paralel di semua node sekaligus:

Simpan manifes berikut ke file bernama cleanup-ips.yaml:

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: cleanup-ipam-dir
  namespace: kube-system
spec:
  selector:
    matchLabels:
      name: cleanup-ipam
  template:
    metadata:
      labels:
        name: cleanup-ipam
    spec:
      hostNetwork: true
      securityContext:
        runAsUser: 0
        runAsGroup: 0
      containers:
      - name: cleanup-ipam
        image: gcr.io/gke-networking-test-images/ubuntu-test:2022
        command:
          - /bin/bash
          - -c
          - |
            while true; do
            for hash in $(find /hostipam -iregex '/hostipam/[0-9].*' -mmin +10 -exec head -n1 {} \; ); do
            hash="${hash%%[[:space:]]}"
            if [ -z $(ctr -n k8s.io c ls | grep $hash | awk '{print $1}') ]; then
            grep -ilr $hash /hostipam
            fi
            done | xargs -r rm
            echo "Done cleaning up /var/lib/cni/networks/gke-pod-network at $(date)"
            sleep 120s
            done
        volumeMounts:
        - name: host-ipam
          mountPath: /hostipam
        - name: host-ctr
          mountPath: /run/containerd
      volumes:
      - name: host-ipam
        hostPath:
          path: /var/lib/cni/networks/gke-pod-network
      - name: host-ctr
        hostPath:
          path: /run/containerd

Jalankan daemonset di cluster:
```
kubectl apply -f cleanup-ips.yaml
```
Anda harus memiliki akses kubectl sebagai administrator cluster untuk menjalankan perintah ini.

Periksa log DaemonSet yang sedang berjalan:

kubectl -n kube-system logs -l name=cleanup-ipam

Kebijakan Jaringan memutuskan koneksi karena pencarian pelacakan koneksi salah

Saat Pod klien terhubung ke dirinya sendiri menggunakan Service atau alamat IP virtual dari Load Balancer Jaringan passthrough internal, paket balasan tidak akan diidentifikasi sebagai bagian dari koneksi yang ada karena pencarian conntrack yang salah di dataplane. Ini berarti Kebijakan Jaringan yang membatasi traffic masuk untuk Pod diterapkan secara tidak benar pada paket.

Dampak masalah ini bergantung pada jumlah Pod yang dikonfigurasi untuk Service. Misalnya, jika Service memiliki 1 Pod backend, koneksi akan selalu gagal. Jika Service memiliki 2 Pod backend, koneksi akan gagal 50% dari waktu tersebut.

Versi tetap

Untuk memperbaiki masalah ini, upgrade cluster Anda ke salah satu versi GKE berikut:

1.28.3-gke.1090000 atau yang lebih baru.

Solusi

Anda dapat mengurangi masalah ini dengan mengonfigurasi port dan containerPort di manifes Service ke nilai yang sama.

Penurunan paket untuk alur koneksi hairpin

Saat Pod membuat koneksi TCP ke dirinya sendiri menggunakan Service—Pod tersebut menjadi sumber sekaligus tujuan koneksi—maka pelacakan koneksi eBPF GKE Dataplane V2 akan salah melacak status koneksi sehingga menyebabkan kebocoran entri conntrack.

Jika tuple koneksi (protokol, IP sumber/tujuan, dan port sumber/tujuan) bocor, koneksi baru yang menggunakan tuple koneksi yang sama dapat mengakibatkan paket yang ditampilkan dihapus.

Versi tetap

Untuk memperbaiki masalah ini, upgrade cluster Anda ke salah satu versi GKE berikut:

1.28.3-gke.1090000 atau yang lebih baru
1.27.11-gke.1097000 atau yang lebih baru

Solusi

Gunakan salah satu dari solusi sementara berikut:

Mengaktifkan penggunaan ulang TCP (keep-alive) untuk aplikasi yang berjalan di Pod yang dapat berkomunikasi dengan dirinya sendiri melalui Service. Tindakan ini akan mencegah flag TCP FIN dikeluarkan dan menghindari kebocoran entri conntrack.
Saat menggunakan koneksi dengan durasi aktif pendek, ekspos Pod akan menggunakan load balancer proxy, seperti Gateway, untuk mengekspos Service. Akibatnya, tujuan permintaan koneksi ditetapkan ke alamat IP load balancer sehingga mencegah GKE Dataplane V2 melakukan SNAT ke alamat IP loopback.

Upgrade bidang kontrol GKE menyebabkan kebuntuan Pod `anetd`

Saat mengupgrade cluster GKE yang telah mengaktifkan GKE Dataplane V2 (jalur data lanjutan) dari versi 1.27 ke 1.28, Anda mungkin mengalami situasi kebuntuan. Workload mungkin mengalami gangguan karena tidak dapat menghentikan Pod lama atau menjadwalkan komponen yang diperlukan seperti anetd.

Penyebab

Proses upgrade cluster meningkatkan persyaratan resource untuk komponen GKE Dataplane V2. Peningkatan ini dapat menyebabkan perebutan resource, yang mengganggu komunikasi antara plugin Cilium Container Network Interface (CNI) dan daemon Cilium.

Gejala

Anda mungkin melihat gejala berikut:

Pod anetd tetap macet dalam status Pending.
Pod Beban Kerja macet dalam status Terminating.
Error yang menunjukkan kegagalan komunikasi Cilium, seperti failed to connect to Cilium daemon.

Error selama pembersihan resource jaringan untuk sandbox Pod, misalnya:

1rpc error: code = Unknown desc = failed to destroy network for sandbox "[sandbox_id]": plugin type="cilium-cni" failed (delete): unable to connect to Cilium daemon... connection refused

Solusi

Cluster standar: Untuk mengatasi masalah ini dan memungkinkan Pod anetd dijadwalkan, tingkatkan sementara resource yang dapat dialokasikan di node yang terpengaruh.

Untuk mengidentifikasi node yang terpengaruh dan memeriksa CPU serta memori yang dapat dialokasikan, jalankan perintah berikut:
```
kubectl get nodes $NODE_NAME -o json | jq '.status.allocatable | {cpu, memory}'
```
Untuk meningkatkan CPU dan memori yang dapat dialokasikan untuk sementara, jalankan perintah berikut:
```
kubectl patch
```

Cluster Autopilot: Untuk mengatasi masalah kebuntuan pada cluster Autopilot, bebaskan resource dengan menghapus Pod yang terpengaruh secara paksa:

kubectl delete pod POD_NAME -n NAMESPACE --grace-period=0 --force

Ganti kode berikut:

POD_NAME: nama Pod.
NAMESPACE: namespace Pod.

Setelah Anda meningkatkan resource yang dapat dialokasikan di node dan saat upgrade dari GKE versi 1.27 ke 1.28 selesai, Pod anetd akan berjalan di versi yang lebih baru.

Langkah berikutnya

Gunakan logging kebijakan jaringan untuk mencatat ketika koneksi ke Pod diizinkan atau ditolak oleh kebijakan jaringan cluster Anda.
Pelajari cara kerja GKE Dataplane V2.

Menggunakan GKE Dataplane V2

Membuat cluster GKE dengan GKE Dataplane V2

Konsol

gcloud

API

Memecahkan masalah pada GKE Dataplane V2

Masalah umum

Masalah konektivitas terputus-putus yang terkait dengan konflik rentang NodePort di cluster GKE Dataplane V2

Masalah konektivitas dengan hostPort di cluster GKE Dataplane V2

Rentang port Kebijakan Jaringan tidak diterapkan

Pod menampilkan pesan error failed to allocate for range 0: no IP addresses available in range set

Versi tetap

Solusi untuk cluster GKE standar

Kebijakan Jaringan memutuskan koneksi karena pencarian pelacakan koneksi salah

Versi tetap

Solusi

Penurunan paket untuk alur koneksi hairpin

Versi tetap

Solusi

Upgrade bidang kontrol GKE menyebabkan kebuntuan Pod anetd

Penyebab

Gejala

Solusi

Langkah berikutnya

Masalah konektivitas terputus-putus yang terkait dengan konflik rentang `NodePort` di cluster GKE Dataplane V2

Masalah konektivitas dengan `hostPort` di cluster GKE Dataplane V2

Pod menampilkan pesan error `failed to allocate for range 0: no IP addresses available in range set`

Upgrade bidang kontrol GKE menyebabkan kebuntuan Pod `anetd`