切断モードで実行されている Anthos から壊れたノードを削除する

このページは、インフラストラクチャ オペレーターを対象としています。

ノードが停止しても、関連する NodePool オブジェクトは更新されません。停止したノードもクラスタの一部と見なされるため、AdminOperator オブジェクトとオブザーバビリティ スタックで異常ステータスが報告される可能性があります。障害が発生したノードを修復または交換するには、クラスタから強制的に削除します。

壊れたノードを削除する方法は次のとおりです。

  1. 停止したノードのエントリを削除するには、管理クラスタの Cluster オブジェクトを編集します。

    1. 次のadmin.yaml不要なノードのエントリを親から削除するファイルNodePool
    2. 次のコマンドを実行して、クラスタを更新します。

      actl clusters baremetal update cluster admin --kubeconfig actl-workspace/admin/admin-kubeconfig
      
  2. 更新されたノードプール用のノードが 1 つ少ないことを確認するには、次のコマンドを実行します。

    kubectl get nodepools -A
    

    次のコマンドを実行すると、削除されたノードがまだ表示されることがあります。

    kubectl get nodes -o wide
    
  3. Node オブジェクトを削除するには、次のコマンドを実行して、対応する障害が発生したマシンに baremetal.cluster.gke.io/force-remove アノテーションを付けます。アノテーション自体の値は重要ではありません。

    kubectl --kubeconfig ADMIN_KUBECONFIG -n CLUSTER_NAMESPACE \
      annotate machine 10.200.0.8 baremetal.cluster.gke.io/force-remove=true
    
  4. コントローラが変更の調整を完了すると、Node オブジェクトは表示できなくなります。AdminOperator オブジェクトとオブザーバビリティ スタックで正常な状態を報告するようになりました。