Fehlerhaftes etcd-Replikat ersetzen

In diesem Dokument wird beschrieben, wie Sie ein fehlgeschlagenes etcd-Replikat in einem Hochverfügbarkeits-Nutzercluster für Google Distributed Cloud ersetzen.

Die folgende Anleitung gilt für einen Hochverfügbarkeits-Nutzercluster, der kubeception verwendet, d. h. einen Nutzercluster, für den Controlplane V2 nicht aktiviert ist. Wenn Sie ein etcd-Replikat in einem Nutzercluster ersetzen müssen, für den Controlplane V2 aktiviert ist, wenden Sie sich an Cloud Customer Care.

Hinweise

  • Überprüfen Sie, ob der Admin-Cluster ordnungsgemäß funktioniert.

  • Prüfen Sie, ob die anderen beiden etcd-Mitglieder im Nutzercluster ordnungsgemäß funktionieren. Wenn mehr als ein etcd-Mitglied fehlgeschlagen ist, lesen Sie die Informationen unter Wiederherstellung von Datenfehlern oder Verlusten von etcd.

Fehlerhaftes etcd-Replikat ersetzen

  1. Sichern Sie eine Kopie des etcd PodDisruptionBudget (PDB), das Sie später wiederherstellen können.

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG -n USER_CLUSTER_NAME get pdb kube-etcd-pdb -o yaml > PATH_TO_PDB_FILE

    Wobei:

    • ADMIN_CLUSTER_KUBECONFIG ist der Pfad zur kubeconfig-Datei für den Administratorcluster.

    • USER_CLUSTER_NAME ist der Name des Nutzerclusters, der das fehlgeschlagene etcd-Replikat enthält.

    • PATH_TO_PDB_FILE ist der Pfad, unter dem Sie die etcd-PDB-Datei speichern möchten, z. B. /tmp/etcpdb.yaml.

  2. Löschen Sie das etcd PodDisruptionBudget (PDB).

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG -n USER_CLUSTER_NAME delete pdb kube-etcd-pdb
  3. Führen Sie den folgenden Befehl aus, um das StatefulSet von kube-etcd im Texteditor zu öffnen:

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG -n USER_CLUSTER_NAME edit statefulset kube-etcd

    Ändern Sie den Wert des Flags --initial-cluster-state in existing.

    containers:
        - name: kube-etcd
          ...
          args:
            - --initial-cluster-state=existing
          ...
     
  4. Leeren des fehlerhaften etcd-Replikatknotens per Drain beenden

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG drain NODE_NAME --ignore-daemonsets --delete-local-data

    Dabei ist NODE_NAME der Name des ausgefallenen etcd-Replikatknotens.

  5. Erstellen Sie eine neue Shell im Container eines der funktionierenden kube-etcd-Pods.

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG exec -it \
       KUBE_ETCD_POD --container kube-etcd --namespace USER_CLUSTER_NAME \
       -- bin/sh

    Dabei ist KUBE_ETCD_POD der Name des funktionierenden Pods "kube-etcd". Beispiel: kube-etcd-0.

    Führen Sie in dieser neuen Shell die folgenden Befehle aus:

    1. Entfernen Sie den fehlgeschlagenen etcd-Replikatknoten aus dem etcd-Cluster.

      Listen Sie zuerst alle Mitglieder des etcd-Clusters auf:

      etcdctl member list -w table

      Die Ausgabe zeigt alle Mitglieds-IDs. Ermitteln Sie die Mitglieds-ID des fehlgeschlagenen Replikats.

      Entfernen Sie als Nächstes das fehlgeschlagene Replikat:

      export ETCDCTL_CACERT=/etcd.local.config/certificates/etcdCA.crt
      export ETCDCTL_CERT=/etcd.local.config/certificates/etcd.crt
      export ETCDCTL_CERT=/etcd.local.config/certificates/etcd.crt
      export ETCDCTL_KEY=/etcd.local.config/certificates/etcd.key
      export ETCDCTL_ENDPOINTS=https://127.0.0.1:2379
      etcdctl member remove MEMBER_ID

      Dabei ist MEMBER_ID die Hex-Mitglieds-ID des fehlgeschlagenen etcd-Replikat-Pods.

    2. Fügen Sie ein neues Mitglied mit demselben Namen und derselben Peer-URL wie der ausgefallene Replikatknoten hinzu.

      etcdctl member add MEMBER_NAME --peer-urls=https://MEMBER_NAME.kube-etcd:2380

      Dabei ist MEMBER_NAME die ID des fehlgeschlagenen Replikats von kube-etcd. Beispiel: kube-etcd-1oder kube-etcd2

  6. Führen Sie die Schritte 1 bis 3 unter Dienstprogramm-Pods bereitstellen aus, um einen Dienstprogramm-Pod im Administratorcluster zu erstellen. Dieser Pod wird verwendet, um im Nutzercluster auf das PersistentVolume (PV) des fehlgeschlagenen etcd-Mitglieds zuzugreifen.

  7. Bereinigen Sie das etcd-Datenverzeichnis innerhalb des Dienstprogramm-Pods.

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG exec -it -n USER_CLUSTER_NAME etcd-utility-MEMBER_NUMBER -- /bin/bash -c 'rm -rf /var/lib/etcd/*'
  8. Löschen Sie den Hilfs-Pod:

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG delete pod -n USER_CLUSTER_NAME etcd-utility-MEMBER_NUMBER
  9. Knoten für das Fehlschlagen aufheben.

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG uncordon NODE_NAME
  10. Öffnen Sie das StatefulSet kube-etcd in Ihrem Texteditor.

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG -n USER_CLUSTER_NAME edit statefulset kube-etcd

    Ändern Sie den Wert des Flags --initial-cluster-state in existing.

    containers:
        - name: kube-etcd
          ...
          args:
            - --initial-cluster-state=existing
          ...
     
  11. Stellen Sie die etcd PDB wieder her, die in Schritt 1 gelöscht wurde.

    kubectl --kubeconfig ADMIN_CLUSTER_KUBECONFIG apply -f /path/to/etcdpdb.yaml