Mengupgrade inferensi Knative di VMware ke fleet

Pelajari cara memigrasikan penayangan Knative di VMware untuk menggunakan fleet sehingga Anda dapat mengupgrade ke Anthos Versi 1.8.

Penyertaan Knative kini merupakan pengalaman terpisah dari produk Cloud Run terkelola dan kini disediakan sebagai komponen fleet di cluster Anda. Menginstal penayangan Knative di fitur VMware sebagai komponen fleet memungkinkan Anda mengelola dan mengupgrade penginstalan secara independen dari komponen fleet lainnya.

Pada level tinggi, untuk memigrasikan layanan Knative di penginstalan VMware agar dapat menggunakan armada, Anda harus:

  • Konfigurasikan penayangan Knative Anda di penginstalan VMware untuk memenuhi persyaratan armada.
  • Aktifkan komponen fitur penayangan Knative di fleet Anda.

Perhatikan bahwa server Kubernetes API tidak terpengaruh selama migrasi ini.

Untuk mengetahui detail tentang cara melakukan penginstalan baru inferensi Knative di VMware, lihat Menginstal inferensi Knative di VMware.

Sebelum memulai

Anda harus memenuhi persyaratan berikut:

  • Langkah-langkah ini mengharuskan penayangan Knative Anda di cluster VMware terdaftar ke fleet dan terlihat di konsol Google Cloud :

    Buka cluster GKE

  • Penginstalan inferensi Knative Anda di VMware berada di cluster yang menjalankan Anthos Versi 1.7 atau yang lebih lama.

  • Istio tidak lagi didukung di Anthos 1.8. Cloud Service Mesh versi 1.18 harus diinstal di fleet dan penginstalan penayangan Knative harus dikonfigurasi sebelum Anda mengupgrade cluster tersebut ke Versi 1.8.

    Lihat petunjuk Cloud Service Mesh untuk mengetahui detail tentang penginstalan di Google Distributed Cloud.

    Perhatikan bahwa Cloud Service Mesh mewajibkan cluster Anda menggunakan jenis mesin yang memiliki minimal empat vCPU, seperti e2-standard-4. Jika Anda perlu mengubah jenis mesin cluster, lihat Memigrasikan workload ke jenis mesin yang berbeda.

  • Ada dua opsi untuk memigrasikan penayangan Knative ke Cloud Service Mesh, yaitu:

    • Dapatkan alamat IP eksternal baru yang akan Anda konfigurasikan untuk load balancer.

    • Gunakan kembali alamat IP load balancer yang ada.

  • Pastikan lingkungan command line Anda dikonfigurasi dan sudah yang terbaru.

Bermigrasi ke fleet

Untuk mengupgrade Anthos ke Versi 1.8, Anda harus terlebih dahulu melakukan langkah-langkah berikut untuk memastikan bahwa penayangan Knative yang ada di penginstalan VMware dimigrasikan untuk menggunakan komponen fleet.

Mengakses cluster admin

Dapatkan jalur dan nama file file kubeconfig cluster admin Anda, lalu buat variabel lingkungan ADMIN_KUBECONFIG:

export ADMIN_KUBECONFIG=[ADMIN_CLUSTER_KUBECONFIG]

Ganti [ADMIN_CLUSTER_KUBECONFIG] dengan jalur dan nama file ke file kubeconfig cluster admin Anda.

Mengonfigurasi setiap cluster pengguna

  1. Buat variabel lingkungan lokal berikut untuk cluster pengguna:

    1. Buat variabel lingkungan USER_KUBECONFIG dengan jalur file kubeconfig cluster pengguna Anda:

      export USER_KUBECONFIG=[USER_CLUSTER_KUBECONFIG]
      

      Ganti [USER_CLUSTER_KUBECONFIG] dengan jalur dan nama file ke file kubeconfig cluster pengguna Anda.

    2. Buat variabel lingkungan untuk konfigurasi berikut:

      • ID project Google Cloud Anda.
      • Lokasi resource Google Cloud Anda.
      • Nama cluster pengguna.
      export PROJECT_ID=$(kubectl get configmaps --namespace knative-serving config-observability --output jsonpath="{.data['metrics\.stackdriver-project-id']}")
      export CLUSTER_LOCATION=$(kubectl get configmaps --namespace knative-serving config-observability --output jsonpath="{.data['metrics\.stackdriver-gcp-location']}")
      export CLUSTER_NAME=$(kubectl get configmaps --namespace knative-serving config-observability --output jsonpath="{.data['metrics\.stackdriver-cluster-name']}")
      
  2. Hapus konfigurasi cloudrun dari resource kustom OnPremUserCluster dari cluster pengguna Anda:

    1. Pastikan cloudRun ditetapkan di OnPremUserCluster:

      $ kubectl get onpremusercluster \
        "${CLUSTER_NAME}" \
        --namespace "${CLUSTER_NAME}-gke-onprem-mgmt" \
        --kubeconfig="${ADMIN_KUBECONFIG}" \
        --output=jsonpath="{.spec.cloudRun}"
      

      Hasil:

      {"enabled":true}
      
    2. Hapus cloudRun dari OnPremUserCluster:

      kubectl patch onpremusercluster \
        "${CLUSTER_NAME}" \
        --namespace "${CLUSTER_NAME}-gke-onprem-mgmt" \
        --kubeconfig="${ADMIN_KUBECONFIG}" \
        --type="merge" \
        --patch '{"spec": {"cloudRun": null}}'
      
    3. Validasi bahwa cloudRun berhasil dihapus dari OnPremUserCluster dengan menjalankan perintah get yang sama dan memverifikasi bahwa tidak ada konfigurasi yang ditampilkan:

      kubectl get onpremusercluster \
        "${CLUSTER_NAME}" \
        --namespace "${CLUSTER_NAME}-gke-onprem-mgmt" \
        --kubeconfig="${ADMIN_KUBECONFIG}" \
        --output=jsonpath="{.spec.cloudRun}"
      

      Tidak akan ada output ke terminal Anda.

  3. Perbarui secret create-config cluster pengguna Anda:

    1. Buat salinan YAML lokal dari file create-config:

      kubectl get secret create-config \
        --kubeconfig="${ADMIN_KUBECONFIG}" \
        --namespace "${CLUSTER_NAME}" \
        --output=jsonpath={.data.cfg} \
        | base64 -d > "${CLUSTER_NAME}_create_secret.yaml"
      
    2. Buka file ${CLUSTER_NAME}_create_secret.yaml yang baru saja Anda buat di editor, lalu hapus kolom cloudrun dari bagian spec.

    3. Enkode file ${CLUSTER_NAME}_cluster_create_secret.yaml dengan Base64 menjadi file .b64:

      cat "${CLUSTER_NAME}_create_secret.yaml" | base64 -w0 > "${CLUSTER_NAME}_create_secret.b64"
      
    4. Di editor, buka file .b64 lokal yang baru saja Anda buat, lalu salin string dari bagian atribut data.cfg untuk digunakan di langkah berikutnya.

      Anda harus memastikan bahwa Anda hanya menyalin konten dari atribut cfg. Misalnya, jangan sertakan baris baru (\n).

    5. Jalankan perintah berikut untuk mengedit secret di cluster pengguna Anda:

      kubectl edit secret create-config --kubeconfig="${ADMIN_KUBECONFIG}" \
        --namespace "${CLUSTER_NAME}"
      
    6. Di editor yang terbuka, ganti kolom data[cfg] dengan string yang Anda salin dari file .b64 lokal, lalu simpan perubahan Anda.

    7. Pastikan perubahan Anda di-deploy ke cluster pengguna dan bahwa atribut cloudrun berhasil dihapus dari secret create-config:

      kubectl get secret create-config \
        --kubeconfig="${ADMIN_KUBECONFIG}" \
        --namespace ${CLUSTER_NAME} \
        --output=jsonpath={.data.cfg} \
        | base64 -d
      
  4. Konfigurasikan namespace knative-serving di cluster pengguna Anda:

    1. Hapus operator cloudrun-operator dari namespace knative-serving:

      kubectl delete deployments.apps --kubeconfig=${USER_KUBECONFIG} --namespace knative-serving cloudrun-operator
      
    2. Terapkan patch pada configmap config-network di namespace knative-serving:

      kubectl patch configmap --kubeconfig=${USER_KUBECONFIG} --namespace knative-serving config-network --patch '{"metadata": {"annotations":{"knative.dev/example-checksum": null}}}'
      
  5. Hapus konfigurasi cloudrun.enabled dari file konfigurasi user-config.yaml cluster pengguna dari penginstalan Google Distributed Cloud Anda.

    Atribut berikut harus dihapus dari dalam file user-config.yaml Anda:

    cloudRun:
      enabled: true
    

    Saat Anda melakukan upgrade cluster ke Anthos Versi 1.8, perubahan konfigurasi ini akan di-deploy.

  6. Jika memiliki beberapa cluster pengguna, Anda harus mengulangi semua langkah di bagian "Mengonfigurasi setiap cluster pengguna" ini untuk setiap cluster pengguna.

Mengonfigurasi komponen fleet

  1. Aktifkan komponen penayangan Knative di fleet Anda:

    gcloud container fleet cloudrun enable --project=$PROJECT_ID
    

    Untuk mengetahui detail dan opsi tambahan, lihat referensi gcloud container fleet cloudrun enable.

  2. Opsional: Pastikan komponen fitur penayangan Knative diaktifkan:

    Konsol

    Lihat apakah komponen penayangan Knative Diaktifkan di konsol Google Cloud :

    Buka Pengelola Fitur

    Command line

    Lihat apakah status appdevexperience adalah ENABLED:

    gcloud container fleet features list --project=$PROJECT_ID
    

    Untuk mengetahui detail dan opsi tambahan, lihat referensi daftar fitur fleet penampung gcloud.

    Hasil:

    NAME               STATE
    appdevexperience   ENABLED
    
  3. Deploy resource kustom CloudRun untuk menginstal inferensi Knative di VMware di setiap cluster pengguna Anda. Secara default, versi latest dari layanan Knative di-deploy.

    Jalankan perintah kubectl apply berikut untuk men-deploy konfigurasi default resource kustom CloudRun:

    cat <<EOF | kubectl apply -f -
    apiVersion: operator.run.cloud.google.com/v1alpha1
    kind: CloudRun
    metadata:
      name: cloud-run
    spec:
      metricscollector:
        stackdriver:
          projectid: $PROJECT_ID
          gcpzone: $CLUSTER_LOCATION
          clustername: $CLUSTER_NAME
          secretname: "stackdriver-service-account-key"
          secretkey: "key.json"
    EOF
    

Mengonfigurasi Cloud Service Mesh

Konfigurasikan load balancer Cloud Service Mesh untuk setiap cluster pengguna Anda.

Anda dapat mengonfigurasi gateway ingress Cloud Service Mesh dengan mengonfigurasi alamat IP eksternal baru atau menggunakan kembali alamat IP yang ada:

  • Dengan alamat IP eksternal baru yang Anda peroleh, Anda akan mengonfigurasi load balancer dengan mengikuti langkah-langkah dalam dokumentasi Cloud Service Mesh.

    Perhatikan bahwa opsi ini memastikan bahwa layanan penayangan Knative Anda dimulai ulang tanpa gangguan.

  • Alternatif: Gunakan langkah-langkah berikut untuk mengonfigurasi load balancer Cloud Service Mesh ke alamat IP yang ada.

    1. Konfigurasikan gateway layanan Anda ke Cloud Service Mesh dengan menjalankan perintah berikut:

      export CURRENT_INGRESS_IP=$(kubectl get service --namespace gke-system istio-ingress --output jsonpath='{.spec.loadBalancerIP}')
      kubectl patch service --namespace istio-system istio-ingressgateway --patch "{\"spec\":{\"loadBalancerIP\": \"$CURRENT_INGRESS_IP\"}}"
      kubectl patch service --namespace gke-system istio-ingress --patch "{\"spec\":{\"loadBalancerIP\": null}}"
      
    2. Hapus setelan konfigurasi Istio saat ini:

      kubectl patch configmap --namespace knative-serving config-istio --patch '{"data":{"local-gateway.cluster-local-gateway": null}}'
      kubectl patch configmap --namespace knative-serving config-istio --patch '{"data":{"gateway.gke-system-gateway": null}}'
      

Memverifikasi migrasi

Anda dapat memeriksa apakah appdevexperience-operator sudah aktif dan berjalan untuk memverifikasi bahwa penayangan Knative di VMware telah berhasil dimigrasikan ke fleet Anda.

Untuk setiap cluster pengguna, jalankan perintah berikut:

 kubectl get deployment -n appdevexperience appdevexperience-operator

Operator appdevexperience-operator harus menampilkan 1/1 sebagai siap, misalnya:

 NAME                        READY   UP-TO-DATE   AVAILABLE   AGE
 appdevexperience-operator   1/1     1            1           1h

Jika operator gagal mencapai status siap, Anda dapat melihat halaman workload cluster di konsol Google Cloud untuk mengidentifikasi masalah resource:

Buka workload Google Kubernetes Engine

Mengupgrade cluster

Setelah memigrasikan penayangan Knative pada penginstalan VMware untuk menggunakan komponen fleet, Anda dapat mengupgrade cluster ke Anthos Versi 1.8. Ikuti petunjuk mendetail di Mengupgrade GKE On-Prem.

Pemecahan masalah

Proses upgrade cluster pengguna Anda gagal diselesaikan

Pod cluster-local-gateway di namespace gke-system dapat mencegah cluster pengguna Anda menyelesaikan upgrade ke Anthos Versi 1.8. Pod cluster-local-gateway tidak lagi diperlukan dan dapat dihapus dengan aman.

Untuk membantu proses upgrade secara manual, Anda dapat menghapus pod cluster-local-gateway secara manual dengan menskalakan turun replika deployment ke 0. Contoh:

  1. Perkecil skala cluster-local-gateway:

    kubectl scale deployment cluster-local-gateway --replicas 0 --namespace gke-system
    

    Pod cluster-local-gateway di namespace gke-system dan semua workload di namespace knative-serving akan dihapus.

  2. Tunggu hingga proses upgrade selesai.

Pelajari lebih lanjut cara menskalakan deployment.