Pod 停止予算によってブロックされたノードを削除する

特定の条件下では、Pod 停止予算（PDB）ポリシーにより、ノードプールからノードが正常に削除されない場合があります。そのような状況下では、ノードステータスは削除されても Ready,SchedulingDisabled を通知します。

Pod 停止予算は、使用可能な Pod の数と競合します。

PDB ポリシーは、システムを変更する際に Pod が同時に停止しないようにすることで、アプリのパフォーマンスを保証します。その結果、PDB ポリシーは、複製されたアプリケーションで同時に使用できない Pod の数を制限します。

ただし、ノードを削除することで、ポリシーに違反する可能性がある場合、PDB ポリシーにより、ノードの削除ができないことがあります。

例えば、PDF ポリシーで、システム内で使用可能な Pod は、常に 2 つであると定義できます。（.spec.minAvailable が 2）。ただし、Pod が 2 つしかない場合、その内の 1 つを含むノードを削除しようとすると、PDB ポリシーが有効になり、ノードの削除が妨げられます。

同様に、PDB ポリシーで、使用できない Pod がない（.spec.maxUnavailable が 0）と定義すると、そのポリシーにより関連するノードはどれも削除が妨げられます。一度に 1 つの Pod を削除しようとしても、PDB ポリシーにより、影響を受けるノードを削除することはできません。

回避策: PDB ポリシーを無効にして、また再度有効にする

この競合を解決するには、PDB ポリシーのバックアップを作成してから削除します。PDB が正常に削除されると、ノードがドレインされ、関連する Pod が削除されます。必要な修正を加えたら、PDB ポリシーを再度有効にできます。

次の例は、この条件のノードを削除する方法を示しています。このノードは、あらゆる種類のベアメタル版 Anthos クラスタ（管理クラスタ、ハイブリッドクラスタ、スタンドアロンクラスタ、ユーザークラスタ）に影響を与える可能性があります。

同様の手順を、すべてのクラスタタイプに適用できます。ただし、管理クラスタノードプール（管理クラスタ、ハイブリッドクラスタ、またはスタンドアロンクラスタ）からノードを削除する特定のコマンドは、ユーザークラスタノードプールからノードを削除するコマンドとは若干異なります。

クラスタタイプ別のコマンドバリエーション

読みやすくするため、次のコマンドのプレースホルダ　${KUBECONFIG} に注意してください。クラスタの種類に応じて、管理クラスタの kubeconfig（ADMIN_KUBECONFIG）または、ユーザークラスタの kubeconfig（USER_CLUSTER_CONFIG）パスを $(KUBECONFIG) にエクスポートし、以下の手順に従います。

ユーザークラスタからノードプールを削除するには、export KUBECONFIG=USER_CLUSTER_CONFIG。
管理クラスタからノードを削除するには、export KUBECONFIG=ADMIN_KUBECONFIG。

（省略可）ユーザークラスタノードプールからノードを削除する場合は、次のコマンドを実行してユーザークラスタ kubeconfig ファイルを抽出します。変数 ADMIN_KUBECONFIG は管理クラスタ kubeconfig へのパスを指定し、変数 USER_CLUSTER_NAME はクラスタの名前を指定します。
```
kubectl --kubeconfig ADMIN_KUBECONFIG -n cluster-USER_CLUSTER_NAME  \
get secret USER_CLUSTER_NAME-kubeconfig  \
-o 'jsonpath={.data.value}' | base64 -d > USER_CLUSTER_CONFIG
```

ノードプールからノードを削除した後、ノードのステータスを確認します。影響を受けるノードは、Ready, SchedulingDisabled を報告します。

kubectl get nodes --kubeconfig ${KUBECONFIG}

ノードのステータスは次のようになります。

NAME        STATUS                    ROLES      AGE      VERSION
abmnewCP2   Ready                     Master     11m      v.1.18.6-gke.6600
abmnewCP3   Ready,SchedulingDisabled  <none>     9m22s    v.1.18.6-gke.6600
abmnewCP4   Ready                     <none>     9m18s    v.1.18.6-gke.6600

クラスタ内の PDB を確認します。

kubectl get pdb --kubeconfig ${KUBECONFIG} -A

システムにより、次のような PDB が通知されます。

NAMESPACE     NAME             MIN AVAILABLE    MAX UNAVAILABLE   ALLOWED DISRUPTIONS   AGE
gke-system    istio-ingress    1                N/A               1                     19m
gke-system    istiod           1                N/A               1                     19m
kube-system   coredns          1                N/A               0                     19m
kube-system   log-aggregator   N/A              0                 0                     19m
kube-system   prometheus       N/A              0                 0                     19m
 ```

PDB を検査します。PDB 内の Pod ラベルと、ノード内の一致する Pod の間で照合する必要があります。この照合により、正しい PDB を無効にしてノードを正常に削除できます。
```
kubectl --kubeconfig ${KUBECONFIG} get pdb log-aggregator -n kube-system -o 'jsonpath={.spec}'
```
PDB ポリシー内の一致するラベルの結果がシステムによって返されます。
```
{"maxUnavailable":0,"selector":{"matchLabels":{"app":"stackdriver-log-aggregator"}}}
```

PDB ポリシーラベルと一致する Pod を検索します。

kubectl --kubeconfig ${KUBECONFIG} get pods -A --selector=app=stackdriver-log-aggregator  \
-o=jsonpath='{range .items[*]}{.metadata.name}{"\t"}{.spec.nodeName}{"\n"}{end}'

このコマンドは、PDB ラベルと一致する Pod のリストを返します。また、削除する必要がある PDB ポリシーを検証します。

stackdriver-log-aggregator-0    abmnewCP3
stackdriver-log-aggregator-1    abmnewCP3

該当する Pod を確認した後、PDB ポリシー（この例では log-aggregator ポリシー）のバックアップコピーを作成します。
```
kubectl get pdb log-aggregator --kubeconfig ${KUBECONFIG} -n kube-system  \
-o yaml >> log-aggregator.yaml
```
特定の PDB ポリシー（この場合は log-aggregator ポリシー）を削除します。
```
kubectl delete pdb log-aggregator --kubeconfig ${KUBECONFIG} -n kube-system
```
PDB ポリシーを削除すると、ノードがドレインを開始します。ただし、ノードが完全に削除されるまでに時間がかかることがあります（最大 30 分）。このため、ノードのステータスのチェックが続きます。

ノードを完全に削除し、ノードに関連付けられたストレージリソースも削除するには、PDB ポリシーを復元する前に行います。ストレージリソースの削除をご覧ください。

コピーから PDB ポリシーを復元します。

kubectl apply -f log-aggregator.yaml --kubeconfig ${KUBECONFIG}

削除された Pod が正常に再作成されていることを確認します。この例では、2 つの stackdriver-log-aggregator-x Pod がある場合、どちらも再作成されます。
```
kubectl get pods -o wide --kubeconfig ${KUBECONFIG} -A
```

ノードを復元する場合は、ノードプール構成を適切に編集し、ノード IP アドレスを復元します。

完全に削除されたノードからストレージリソースを削除する

ノードを完全に削除した後に、そのノードをシステムに復元しない場合は、そのノードに関連付けられているストレージリソースを削除することもできます。

次のコマンドでは、以下の変数にご注意ください。

ADMIN-KUBECONFIG は、管理クラスタのパスを指定します。
USER_CLUSTER_CONFIG は、クラスタ構成 YAML ファイルへのパスを指定します。

ノードに関連付けられた永続ボリューム（PV）の名前を確認し、取得します。

kubectl get pv --kubeconfig ${KUBECONFIG}  \
-A -o=jsonpath='{range .items[*]}{"\n"}{.metadata.name}{":\t"}{.spec.claimRef.name}{":\t}  \
{.spec.nodeAffinity.required.nodeSelectorTerms[0].matchExpressions[0].values}{"\n"}{end}'

ノードに関連付けられた PV を削除します。
```
kubectl delete pv PV_NAME --kubeconfig ${KUBECONFIG}
```

Pod 停止予算によってブロックされたノードを削除する

Pod 停止予算は、使用可能な Pod の数と競合します。

回避策: PDB ポリシーを無効にして、また再度有効にする

クラスタ タイプ別のコマンド バリエーション

完全に削除されたノードからストレージ リソースを削除する

クラスタタイプ別のコマンドバリエーション

完全に削除されたノードからストレージリソースを削除する