このページは Cloud Translation API によって翻訳されました。

Stateful HA Operator を使用してステートフルアプリの可用性を向上させる

Autopilot Standard

Stateful High Availability（HA）Operator を使用すると、GKE の組み込みのリージョン Persistent Disk との統合を使用して、StatefulSet Pod のフェイルオーバーの速度を自動化および制御できます。フェイルオーバー中、オペレーターはノードの障害の検出、障害が発生したノードからのボリュームの切断、フェイルオーバーノードへの安全なボリュームアタッチメントの確保を自動的に行います。

Stateful HA Operator を使用する理由

高可用性を実現するための一般的なステートフルアーキテクチャでは、ストレージレイヤとしてリージョン Persistent Disk を使用します。これらのディスクは、リージョン内の 2 つのゾーン間でデータの同期レプリケーションを行います。このアーキテクチャでは、ノードまたはゾーンのネットワーク障害が発生した場合に、ワークロードが（強制接続によって）異なるゾーンに存在する別のノード上のストレージにレプリカをフェイルオーバーできます。

Stateful HA Operator を使用すると、次の最適化を行うことができます。

単一レプリカアプリケーションの復旧時間を改善する: レプリカを 1 つのみ使用する場合は、アプリケーションのプロビジョニング時に Stateful HA Operator を使用してゾーンストレージをリージョンストレージに切り替えることができ、ノードに障害が発生した場合のデータの耐久性と可用性が向上します。
ゾーン間のネットワーキングコストを削減する: 高スループットのアプリケーションでは、複数のゾーン間でデータを複製するとコストが増大する可能性があります。Stateful HA Operator を使用すると、アプリケーションの SLA に適合する代替ゾーンへのフェイルオーバーパスを維持しながら、単一のゾーンでアプリケーションを実行できます。

制限事項

gcePersistentDisk ボリュームタイプはサポートされていません。永続ディスクの CSI ドライバを使用する PersistentVolume を使用します。
単一レプリカの Stateful HA Operator アーキテクチャでは、GKE はリージョン Persistent Disk を介して 2 つのゾーンにデータを保持しますが、データにアクセスできるのはアプリケーションレプリカが正常な場合に限られます。フェイルオーバー中は、レプリカが新しい正常なノードにスケジュール変更されている間、アプリケーションが一時的に使用できなくなります。アプリケーションの目標復旧時間（RTO）が非常に低い値の場合は、マルチレプリカアプローチを使用することをおすすめします。

始める前に

作業を始める前に、次のタスクが完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。すでに gcloud CLI をインストールしている場合は、gcloud components update コマンドを実行して最新のバージョンを取得します。以前のバージョンの gcloud CLI では、このドキュメントのコマンドを実行できない場合があります。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region プロパティを設定してください。主にゾーンクラスタを使用する場合は、代わりに compute/zone を設定します。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。クラスタのロケーションが設定したデフォルトと異なる場合は、特定のコマンドでロケーションの指定が必要になることがあります。

要件

Stateful HA Operator を使用すると、リージョン Persistent Disk を使用するように、リンクされた StatefulSet が自動的に構成されます。ただし、これらのディスクを使用するように Pod が構成され、基盤となるストレージに関連付けられたすべてのゾーンで実行可能であることを確認する必要があります。
リージョン Persistent Disk でサポートされているマシンシェイプ（E2、N1、N2、N2D）でアプリケーションが実行されていることを確認します。
Compute Engine Persistent Disk の CSI ドライバが有効になっていることを確認します。Persistent Disk の CSI ドライバは、新しい Autopilot クラスタと Standard クラスタではデフォルトで有効になっており、Autopilot の使用時に無効にするまたは編集することはできません。クラスタから Persistent Disk の CSI ドライバを手動で追加する必要がある場合は、既存のクラスタで Persistent Disk の CSI ドライバを有効にするをご覧ください。
カスタム StorageClass を使用している場合は、pd.csi.storage.gke.io プロビジョナーと次のパラメータを使用して Persistent Disk CSI ドライバを構成します。
- availability-class: regional-hard-failover
- replication-type: regional-pd

Stateful HA Operator を設定して使用する

ステートフルワークロードに Stateful HA Operator を設定する手順は次のとおりです。

StatefulHA アドオンを有効にします。
HighAvailabilityApplication リソースをインストールします。
StatefulSet をインストールします。
HighAvailabilityApplication リソースを検査します。

`StatefulHA` アドオンを有効にする

Stateful HA Operator を使用するには、クラスタで StatefulHA アドオンを有効にする必要があります。

Autopilot クラスタ: GKE は、クラスタの作成時に StatefulHA アドオンを自動的に有効にします。既存のワークロードで Stateful HA Operator を使用する場合は、Compute Engine Persistent Disk の CSI ドライバを手動で有効にする必要があります。詳細については、既存のクラスタで Persistent Disk CSI ドライバを有効にするをご覧ください。
Standard クラスタ:
- 新しいクラスタの作成: gcloud CLI の手順に沿って Standard クラスタを作成し、--add-on=StatefulHA フラグを追加します。
- 既存の Standard クラスタ: gcloud CLI の手順に沿って Standard クラスタの設定を更新し、--update-addons=StatefulHA=ENABLED フラグを使用してアドオンを有効にします。

アドオンを有効にすると、GKE は standard-rwo-regional という名前の StorageClass を自動的にインストールします。

HighAvailabilityApplication リソースをインストールする

HighAvailabilityApplication は、StatefulSet の設定を簡素化し、GKE で Pod の可用性を向上させる Kubernetes リソースです。Stateful HA Operator は GKE の HighAvailabilityApplication リソースを調整します。

HighAvailabilityApplication 仕様では、HighAvailabilityApplication.spec.resourceSelection.resourceKind を StatefulSet に設定する必要があります。

HighAvailability リソースの構成方法については、HighAvailabilityApplication のリファレンスドキュメントをご覧ください。

次の PostgreSQL の例をご覧ください。

次のマニフェストを stateful-ha-example-resource.yaml という名前のファイルに保存します。
```
kind: HighAvailabilityApplication
apiVersion: ha.gke.io/v1
metadata:
  name: APP_NAME
  namespace: APP_NAMESPACE
spec:
  resourceSelection:
    resourceKind: StatefulSet
  policy:
    storageSettings:
      requireRegionalStorage: true
    failoverSettings:
      forceDeleteStrategy: AfterNodeUnreachable
      afterNodeUnreachable:
        afterNodeUnreachableSeconds: 20
```
次のように置き換えます。
- APP_NAME: 保護するクラスタ内のアプリケーションの名前。この名前は、HighAvailabilityApplication と StatefulSet の両方で共有する必要があります。
- APP_NAMESPACE: アプリケーションの名前空間。この名前空間は、保護対象の HighAvailabilityApplication と StatefulSet の両方で共有する必要があります。
この例では、次のようになります。
- HighAvailabilityApplication.spec.policy.storageSettings.requireRegionalSettings は true に設定されています。これにより、リージョンストレージが適用されます。
- HighAvailabilityApplication.spec.policy.failoverSettings は AfterNodeUnreachable に設定されています。これにより、ノードの障害時に強制削除がトリガーされる方法が決定されます。
- HighAvailabilityApplication.spec.policy.failoverSettings.afterNodeUnreachable は 20 に設定されています。これは、実行されているノードが到達不能としてマークされた後に Pod を強制的に削除するためのタイムアウトです。
リソースを作成します。HighAvailabilityApplication リソースは、一致する名前空間と名前を持つ StatefulSet を識別します。
```
kubectl apply -f stateful-ha-example-resource.yaml
```

StatefulSet をインストールする

StatefulSet をインストールします。たとえば、Helm を使用して PostgreSQL StatefulSet をインストールできます（Helm には Cloud Shell がプリインストールされています）。

helm install postgresql oci://registry-1.docker.io/bitnamicharts/postgresql \
  --namespace=APP_NAMESPACE \
  --set fullnameOverride=APP_NAME

HighAvailabilityApplication リソースは、StatefulSet の StorageClass を standard-rwo-regional に自動的に変更します。これは、リージョン Persistent Disk を使用します。

HighAvailabilityApplication リソースを検査する

次のコマンドを実行して、サンプルアプリケーションで自動フェイルオーバーが有効になっていることを確認します。

kubectl describe highavailabilityapplication APP_NAME

出力は次のようになります。

Status:
Conditions:
  Last Transition Time:  2023-08-09T23:59:52Z
  Message:               Application is protected
  Observed Generation:   1
  Reason:                ApplicationProtected
  Status:                True
  Type:                  Protected

既存の Persistent Disk を使用する

既存の Persistent Disk と静的に定義された PersistentVolume を使用している場合は、.spec.csi.volumeAttributes で force-attach: true を使用して PersistentVolume を構成します。例:

apiVersion: v1
kind: PersistentVolume
metadata:
  name: PV_NAME
spec:
  storageClassName: "STORAGE_CLASS_NAME"
  capacity:
    storage: DISK_SIZE
  accessModes:
    - ReadWriteOnce
  claimRef:
    name: PV_CLAIM_NAME
    namespace: default
  csi:
    driver: pd.csi.storage.gke.io
    volumeHandle: DISK_ID
    fsType: FS_TYPE
    volumeAttributes:
      force-attach: true

Stateful HA Operator を使用してステートフル アプリの可用性を向上させる