このページは Cloud Translation API によって翻訳されました。

ノードシステム構成のカスタマイズ

Standard

このドキュメントでは、「ノードシステム構成」という構成ファイルを使用して、Google Kubernetes Engine（GKE）ノード構成をカスタマイズする方法について説明します。

概要

ノードの構成はさまざまな方法でカスタマイズできます。たとえば、ノードプールを作成するときに、マシンタイプや最小 CPU プラットフォームなどのパラメータを指定できます。

ノードシステム構成は、限定された一連のシステム設定を調整するための構成ファイルです。ノードシステム構成を使用すると、ノードプールで Kubernetes ノードエージェント（kubelet）と低レベルの Linux カーネル構成（sysctl）に対してカスタム設定を指定できます。

また、ランタイム構成ファイルという別のファイルを使用して、GKE ノードで containerd コンテナランタイムをカスタマイズすることもできます。手順については、GKE ノードで containerd 構成をカスタマイズするをご覧ください。

DaemonSet による GKE ノードの自動ブートストラップを行う場合などは、DaemonSet を使用してノードをカスタマイズできます。

ノードシステム構成の使用

ノードシステム構成は、次のいずれかの方法でカスタマイズできます。

構成ファイル: Standard モードで使用できます。kubelet と Linux カーネルの構成パラメータを含む YAML ファイルを使用します。このページの手順では、構成ファイルを作成して使用する方法について説明します。
ComputeClass: Autopilot モードと Standard モードで使用できます。ノードシステム構成を GKE ComputeClass 仕様で指定します。コンピューティングクラスで、GKE がクラスタをスケールアップするときに使用する一連のノード属性を定義できます。GKE バージョン 1.32.1-gke.1729000 以降で利用できます。詳細については、GKE のカスタムコンピューティングクラスについてをご覧ください。

ノードシステム構成ファイルを使用するには、次の操作を行います。

構成ファイルを作成します。このファイルには、kubelet 構成と sysctl 構成が含まれています。
ノードプールの作成または更新時に構成を追加します。

始める前に

作業を始める前に、次のタスクが完了していることを確認してください。

Google Kubernetes Engine API を有効にする。

Google Kubernetes Engine API の有効化

このタスクに Google Cloud CLI を使用する場合は、gcloud CLI をインストールして初期化する。すでに gcloud CLI をインストールしている場合は、gcloud components update コマンドを実行して最新のバージョンを取得します。以前のバージョンの gcloud CLI では、このドキュメントのコマンドを実行できない場合があります。
注: gcloud CLI がすでにインストールされている場合には、必ず compute/region プロパティを設定してください。主にゾーンクラスタを使用する場合は、代わりに compute/zone を設定します。デフォルトのロケーションを設定することで、gcloud CLI のエラー（One of [--zone, --region] must be supplied: Please specify location など）を防止できます。クラスタのロケーションが設定したデフォルトと異なる場合は、特定のコマンドでロケーションの指定が必要になることがあります。

既存の Standard クラスタがあることを確認する。必要な場合は、Standard クラスタを作成します。

構成ファイルの作成

ノードシステム構成ファイルを YAML で記述します。次の例は、kubelet オプションと sysctl オプションの構成を追加する方法を示しています。

kubeletConfig:
  cpuManagerPolicy: static
  allowedUnsafeSysctls:
  - 'kernel.shm*'
  - 'kernel.msg*'
  - 'kernel.sem'
  - 'fs.mqueue*'
  - 'net.*'
linuxConfig:
 sysctl:
   net.core.somaxconn: '2048'
   net.ipv4.tcp_rmem: '4096 87380 6291456'

この例では、次のようになります。

cpuManagerPolicy: static は、静的 CPU 管理ポリシーを使用するように kubelet を構成します。
net.core.somaxconn: '2048' は、socket listen() バックログを 2,048 バイトに制限します。
net.ipv4.tcp_rmem: '4096 87380 6291456' は、TCP ソケットの受信バッファの最小値、デフォルト値、最大値をそれぞれ 4,096 バイト、87,380 バイト、6,291,456 バイトに設定します。

kubelet または sysctl の構成のみを追加する場合は、そのセクションのみを構成ファイルに追加します。たとえば、kubelet 構成を追加するには、次のファイルを作成します。

kubeletConfig:
  cpuManagerPolicy: static

構成ファイルに追加できるフィールドの完全なリストについては、Kubelet 構成オプションと Sysctl 構成オプションのセクションをご覧ください。

ノードプールへの構成の追加

構成ファイルを作成したら、Google Cloud CLI を使用して --system-config-from-file フラグを追加します。

gcloud CLI または Terraform を使用して、新しい Standard クラスタを作成するとき、または新しいノードプールを作成するときに、ノードシステム構成を適用できます。クラスタの作成時に構成を適用すると、GKE はクラスタのデフォルトのノードプールに構成を適用します。既存のノードプールのノードシステム構成を更新することもできます。 Google Cloud コンソールでノードシステム構成を追加することはできません。

ノードシステム構成を使用して新しいノードプールを作成する

次の手順では、ノードシステム構成を新しいノードプールに適用します。

gcloud CLI

gcloud container node-pools create POOL_NAME \
     --cluster CLUSTER_NAME \
     --location=LOCATION \
     --system-config-from-file=SYSTEM_CONFIG_PATH

``` Replace the following:

POOL_NAME: ノードプールの名前
CLUSTER_NAME: ノードプールを追加するクラスタの名前
LOCATION: クラスタのコンピューティングゾーンまたはリージョン
SYSTEM_CONFIG_PATH: kubelet 構成と sysctl 構成を含むファイルのパス

Terraform

カスタマイズされたノードシステム構成を持つノードプールを Terraform を使用して作成するには、次の例をご覧ください。

resource "google_container_node_pool" "default" {
  name    = "gke-standard-regional-node-pool"
  cluster = google_container_cluster.default.name

  node_config {
    # Kubelet configuration
    kubelet_config {
      cpu_manager_policy = "static"
    }

    linux_node_config {
      # Sysctl configuration
      sysctls = {
        "net.core.netdev_max_backlog" = "10000"
      }

      # Linux cgroup mode configuration
      cgroup_mode = "CGROUP_MODE_V2"

      # Linux huge page configuration
      hugepages_config {
        hugepage_size_2m = "1024"
      }
    }
  }
}

Terraform の使用方法の詳細については、GKE での Terraform のサポートをご覧ください。

既存のノードプールのノードシステム構成を更新する

次のコマンドを実行します。

  gcloud container node-pools update POOL_NAME \
      --cluster=CLUSTER_NAME \
      --location=LOCATION \
      --system-config-from-file=SYSTEM_CONFIG_PATH

次のように置き換えます。

POOL_NAME: 更新するノードプールの名前
CLUSTER_NAME: 更新するクラスタの名前
LOCATION: クラスタのコンピューティングゾーンまたはリージョン
SYSTEM_CONFIG_PATH: kubelet 構成と sysctl 構成を含むファイルのパス

この変更を行うにはノードの再作成が必要になり、実行中のワークロードが中断する可能性があります。この変更について詳しくは、メンテナンスポリシーを遵守せずにノードアップグレード戦略に従ってノードを再作成する手動変更の表で対応する行をご覧ください。ノードの更新の詳細については、ノードの更新による中断に備えた計画をご覧ください。

ノードシステム構成を編集する

ノードシステム構成を編集するには、必要な構成で新しいノードプールを作成するか、既存のノードプールのノードシステム構成を更新します。

ノードプールを作成して編集する

ノードプールを作成して、ノードシステム構成を編集するには:

必要な構成で構成ファイルを作成します。
新しいノードプールに構成を追加します。
ワークロードを新しいノードプールに移行します。
古いノードプールを削除します。

既存のノードプールを更新して編集する

既存のノードプールのノードシステム構成を編集するには、[ノードプールの更新] タブでノードプールへの構成の追加の手順に従います。ノードシステム構成を更新すると、ノードプールのシステム構成が新しい構成でオーバーライドされます。この場合、ノードの再作成が必要になります。更新中にパラメータを省略すると、それぞれがデフォルトに設定されます。

ノードシステム構成をデフォルトに戻す場合は、kubelet と sysctl の空の値で構成ファイルを更新します。次に例を示します。

kubeletConfig: {}
linuxConfig:
  sysctl: {}

ノードシステム構成を削除する

ノードシステム構成を削除するには:

ノードプールを作成します。
ワークロードを新しいノードプールに移行します。
古いノードシステム構成を持つノードプールを削除します。

Kubelet 構成オプション

次の表に、変更可能な kubelet オプションを示します。

Kubelet 構成の設定	制限事項	デフォルト設定	説明
allowedUnsafeSysctls	`sysctl` の名前またはグループのリスト。使用できる `sysctl` グループ: `kernel.shm`、`kernel.msg`、`kernel.sem`、`fs.mqueue.`、`net.`。例: `[kernel.msg*, net.ipv4.route.min_pmtu]`。	`none`	この設定では、Pod に設定できる安全でない `sysctl` 名または `sysctl` グループのカンマ区切りの許可リストを定義します。 GKE バージョン 1.32.0-gke.1448000 以降で使用できます。
containerLogMaxSize	値は `10Mi`～`500Mi` の正の数と単位の接尾辞の組み合わせにする必要があります。有効な単位は `Ki, Mi, Gi` です。	`10Mi`	この設定は、コンテナログローテーションポリシーの containerLogMaxSize 設定を制御します。これにより、各ログファイルの最大サイズを構成できます。デフォルト値は `10Mi` です。
containerLogMaxFiles	値は `2`～`10` の整数にする必要があります。	`5`	この設定は、コンテナログファイルローテーションポリシーの containerLogMaxFiles 設定を制御します。これにより、各コンテナで許可されるファイルの最大数をそれぞれ構成できます。デフォルト値は `5` です。コンテナあたりのログの合計サイズ `(container_log_max_size*container_log_max_files)` がノードの合計ストレージの 1% を超えてはなりません。
cpuCFSQuota	値は `true` または `false` にする必要があります。	`true`	この設定では、Pod の CPU 上限が適用されます。この値を `false` に設定すると、Pod の CPU 制限は無視されます。 Pod が CPU の制限を受ける可能性がある特定のシナリオでは、CPU 制限を無視することが望ましい場合があります。`cpuCFSQuota` を無効にすると、誤った Pod が想定よりも多くの CPU リソースを消費するリスクがあります。
cpuCFSQuotaPeriod	値は 1 ミリ秒～1 秒の範囲（両端の値を含む）で指定する必要があります。	`"100ms"`	この設定では、CPU の CFS 割り当て期間値 `cpu.cfs_period_us` を設定します。この値は、cgroup による CPU リソースへのアクセス頻度を指定します。このオプションを使用すると、CPU スロットルの動作を調整できます。
imageGcLowThresholdPercent	値は 10～85 の整数で、`imageGcHighThresholdPercent` より小さくする必要があります。	`80`	この設定では、この値を超えるまではイメージガベージコレクションが実行されないディスク使用量の割合を定義します。ガベージコレクションの対象となるディスク使用量の下限です。このフィールドの値を 100 で割って割合が計算されます。指定する場合、値は `imageGcHighThresholdPercent` より小さくする必要があります。
imageGcHighThresholdPercent	値は 10～85 の整数で、`imageGcLowThresholdPercent` より大きくする必要があります。	`85`	この設定では、この値を超えるまでイメージガベージコレクションが実行されるディスク使用量の割合を定義します。ガベージコレクションの対象となるディスク使用量の上限です。このフィールドの値を 100 で割って割合が計算されます。指定する場合、値は `imageGcLowThresholdPercent` より大きくする必要があります。
imageMinimumGcAge	値は「2m」以下の実行時間である必要があります。有効な時間の単位は `"ns", "us" (or "µs"), "ms", "s", "m", "h"` です。	`2m`	`imageMinimumGcAge` は、使用されていないイメージがガベージコレクションの対象になるまでの最短時間です。
imageMaximumGcAge	値は実行時間である必要があります。	`0s`	`imageMaximumGcAge` は、使用されていないイメージがガベージコレクションの対象になるまでの最長時間です。このフィールドのデフォルトは「0s」で、このフィールドは無効になります。つまり、長時間使用されていないという理由でイメージがガベージコレクションの対象になることはありません。指定する場合、値は `imageMinimumGcAge` より大きくする必要があります。 GKE バージョン 1.30.7-gke.1076000、1.31.3-gke.1023000 以降で使用できます。
`insecureKubeletReadonlyPortEnabled`	値はブール値（`true` または `false`）にする必要があります。	`true`	この設定により、クラスタ内の新しいノードプールごとに、安全でない kubelet 読み取り専用ポート `10255` が無効になります。このファイルでこの設定を行うと、GKE API クライアントを使用してクラスタレベルで設定を変更できなくなります。
podPidsLimit	値は 1024～4194304 の範囲で指定してください。	`none`	この設定は、各 Pod が使用できるプロセス ID（PID）の最大数を設定します。
maxParallelImagePulls	値は 2～5 の整数（両端の値を含む）にする必要があります。	ディスクタイプに応じて `2` または `3`	この設定は、並列で実行できるイメージプルの最大数を定義します。デフォルト値は、ブートディスクのタイプによって決まります。デフォルトの `3`: `pd-balanced`、`pd-ssd`、またはエフェメラルローカル SSD が存在します。デフォルトの `2`: `pd-standard` または他のタイプのブートディスク。 GKE バージョン 1.33.1-gke.1918000 以降で使用できます。
evictionSoft	シグナル名のマップ。値の制限については、次の表をご覧ください。	`none`	この設定では、シグナル名を強制排除（復元可能）のしきい値を定義する数量または割合にマッピングします。強制排除（復元可能）のしきい値には猶予期間が必要です。kubelet は、猶予期間が経過するまで Pod を強制排除しません。
evictionSoftGracePeriod	シグナル名のマップ。`evictionSoft` と同じオプションがありますが、制約が異なります。各シグナル名について、値は `5m` 未満の正の期間（`30s` や `1m` など）である必要があります。有効な時間単位は、`"ns"`、`"us"`（または `"µs"`）、`"ms"`、`"s"`、`"m"`、`"h"` です。	`none`	この設定は、シグナル名を、強制排除（復元可能）のしきい値の猶予期間を定義する期間にマッピングします。強制排除（復元可能）のしきい値には、対応する猶予期間が必要です。
evictionMinimumReclaim	シグナル名のマップ。`evictionSoft` と同じオプションがありますが、制約が異なります。各シグナル名について、値は `10%` より小さい正の割合にする必要があります（例: `5%`）。	`none`	この設定は、シグナル名を、kubelet が Pod の強制排除を実行するときに再利用する特定のリソースの最小量を定義する割合にマッピングします。
evictionMaxPodGracePeriodSeconds	値には `0`～`300` の整数を指定してください。	`0`	この設定は、削除時の Pod 終了の最大猶予期間を秒単位で定義します。

次の表に、変更可能な evictionSoft フラグのオプションを示します。同じオプションが evictionSoftGracePeriod フラグと evictionMinimumReclaim フラグにも適用されますが、制限は異なります。

Kubelet 構成の設定	制限事項	デフォルト設定	説明
memoryAvailable	値は、ノードのメモリの `100Mi` より大きく `50%` より小さい量にする必要があります。例: `100Mi`、`1Gi`。	`none`	強制排除（復元可能）前に使用可能なメモリ量を表します。kubelet の `memory.available` シグナルの量を定義します。
nodefsAvailable	値は `10%`～`50%` の範囲で指定してください。	`none`	強制排除（復元可能）前に使用可能な nodefs を表します。kubelet の `nodefs.available` シグナルの量を定義します。
nodefsInodesFree	値は `5%`～`50%` の範囲で指定してください。	`none`	強制排除（復元可能）前に空いている nodefs inode を表します。kubelet の `nodefs.inodesFree` シグナルの量を定義します。
imagefsAvailable	値は `15%`～`50%` の範囲で指定してください。	`none`	強制排除（復元可能）前に使用可能な imagefs を表します。kubelet の `imagefs.available` シグナルの量を定義します。
imagefsInodesFree	値は `5%`～`50%` の範囲で指定してください。	`none`	強制排除（復元可能）前に空いている imagefs inode を表します。kubelet の `imagefs.inodesFree` シグナルの量を定義します。
pidAvailable	値は `10%`～`50%` の範囲で指定してください。	`none`	強制排除（復元可能）前に使用可能な PID を表します。kubelet の `pid.available` シグナルの量を定義します。
singleProcessOOMKill	値は `true` または `false` にする必要があります。	cgroupv1 ノードの場合は `true`、cgroupv2 ノードの場合は `false`。	この設定では、コンテナ内のプロセスが個別に OOMkill されるか、グループとして OOMkill されるかを設定します。 GKE バージョン 1.32.4-gke.1132000、1.33.0-gke.1748000 以降で使用できます。

リソースマネージャー

Kubernetes には、一連のリソースマネージャーが用意されています。これらのリソースマネージャーを構成して、CPU、デバイス、メモリ（hugepage）リソースの特定の要件が構成された Pod のためにノードリソースの調整と最適化を行うことができます。詳細については、ノードリソースマネージャーをご覧ください。

GKE では、これらのリソースマネージャーに対して次の設定を構成できます。これらの設定は個別に構成できますが、リソース管理を整合させるために一緒に使用することをおすすめします。トポロジマネージャーの設定を CPU マネージャーおよびメモリマネージャーの設定とともに使用することで、CPU とメモリを Pod 仕様でリクエストされた他のリソースと整合させることができます。

Kubelet 構成の設定制限事項デフォルト設定説明

Kubelet 構成の設定	制限事項	デフォルト設定	説明
cpuManagerPolicy:	値は `none` または `static` にする必要があります。	`none`	この設定は、kubelet の CPU マネージャーポリシーを制御します。デフォルト値は `none` で、デフォルトの CPU アフィニティスキームになります。OS スケジューラによって自動的に実行される範囲を超えるアフィニティはありません。この値を `static` に設定すると、整数演算の CPU リクエストを含む `Guaranteed` QoS クラスの Pod に CPU の排他的使用を割り当てることができます。
memoryManager: policy:	値は `None` または `Static` にする必要があります。	`None`	この設定は、kubelet のメモリマネージャーポリシーを制御します。デフォルト値の `None` を使用すると、Kubernetes はメモリマネージャーが存在しない場合と同じように動作します。詳しくは、None ポリシーをご覧ください。この値を `Static` に設定すると、Pod のタイプに依存するトポロジヒントが送信されます。詳しくは、Static ポリシーをご覧ください。この設定は、コントロールプレーンで GKE バージョン 1.32.3-gke.1785000 以降が実行されているクラスタでサポートされています。
topologyManager: policy: scope:	値は、それぞれのフィールドでサポートされている設定のいずれかにする必要があります。	topologyManager.policy のデフォルトは `none` です。 topoloyManager.scope のデフォルトは `container` です。	これらの設定は、kubelet のトポロジマネージャーポリシーを制御します。このポリシーは、CPU 分離、メモリ、デバイスのローカリティに関連するパフォーマンス最適化のために関連コンポーネントを調整します。ポリシーとスコープの設定は、互いに独立して設定できます。これらの設定の詳細については、トポロジマネージャーのスコープとポリシーをご覧ください。次の GKE リソースがこの設定をサポートしています。コントロールプレーンで GKE バージョン 1.32.3-gke.1785000 以降が実行されているクラスタ。コントロールプレーンとノードで 1.33.0-gke.1712000 以降が実行されているクラスタの場合、トポロジマネージャーは GPU トポロジに関する情報も受信します。次のマシンタイプを使用するノード: A2、A3、A4、C3、C4、C4A、G2、G4、M3、N4

      cpuManagerPolicy:

値は none または static にする必要があります。

none

この設定は、kubelet の CPU マネージャーポリシーを制御します。デフォルト値は none で、デフォルトの CPU アフィニティスキームになります。OS スケジューラによって自動的に実行される範囲を超えるアフィニティはありません。

この値を static に設定すると、整数演算の CPU リクエストを含む Guaranteed QoS クラスの Pod に CPU の排他的使用を割り当てることができます。

      memoryManager:
        policy:

値は None または Static にする必要があります。

None

この設定は、kubelet のメモリマネージャーポリシーを制御します。デフォルト値の None を使用すると、Kubernetes はメモリマネージャーが存在しない場合と同じように動作します。詳しくは、None ポリシーをご覧ください。

この値を Static に設定すると、Pod のタイプに依存するトポロジヒントが送信されます。詳しくは、Static ポリシーをご覧ください。

この設定は、コントロールプレーンで GKE バージョン 1.32.3-gke.1785000 以降が実行されているクラスタでサポートされています。

      topologyManager:
        policy:
        scope:

値は、それぞれのフィールドでサポートされている設定のいずれかにする必要があります。

topologyManager.policy のデフォルトは none です。
topoloyManager.scope のデフォルトは container です。

これらの設定は、kubelet のトポロジマネージャーポリシーを制御します。このポリシーは、CPU 分離、メモリ、デバイスのローカリティに関連するパフォーマンス最適化のために関連コンポーネントを調整します。

ポリシーとスコープの設定は、互いに独立して設定できます。これらの設定の詳細については、トポロジマネージャーのスコープとポリシーをご覧ください。

次の GKE リソースがこの設定をサポートしています。

コントロールプレーンで GKE バージョン 1.32.3-gke.1785000 以降が実行されているクラスタ。コントロールプレーンとノードで 1.33.0-gke.1712000 以降が実行されているクラスタの場合、トポロジマネージャーは GPU トポロジに関する情報も受信します。
次のマシンタイプを使用するノード: A2、A3、A4、C3、C4、C4A、G2、G4、M3、N4

次の例は、3 つの Resource Manager ポリシーがすべて構成されているノードシステム構成を示しています。

cpuManagerPolicy: static
memoryManager:
  policy: Static
topologyManager:
  policy: best-effort
  scope: pod

Sysctl 構成オプション

システムのパフォーマンスを調整するには、次の Kernel 属性を変更します。

kernel.shmmni
kernel.shmmax
kernel.shmall
kernel.perf_event_paranoid
kernel.sched_rt_runtime_us
kernel.softlockup_panic
kernel.yama.ptrace_scope
kernel.kptr_restrict
kernel.dmesg_restrict
kernel.sysrq
net.core.busy_poll
net.core.busy_read
net.core.netdev_max_backlog
net.core.rmem_max
net.core.rmem_default
net.core.wmem_default
net.core.wmem_max
net.core.optmem_max
net.core.somaxconn
net.ipv4.tcp_rmem
net.ipv4.tcp_wmem
net.ipv4.tcp_tw_reuse
net.ipv4.tcp_max_orphans
net.ipv4.tcp_max_tw_buckets
net.ipv4.tcp_syn_retries
net.ipv4.tcp_ecn
net.ipv4.tcp_mtu_probing
net.ipv4.tcp_congestion_control - クラスタで Dataplane V2 が有効になっている場合はサポートされません。
net.ipv6.conf.all.disable_ipv6
net.ipv6.conf.default.disable_ipv6
net.netfilter.nf_conntrack_acct - GKE バージョン 1.32.0-gke.1448000 以降で使用できます。
net.netfilter.nf_conntrack_max - GKE バージョン 1.32.0-gke.1448000 以降で使用できます。
net.netfilter.nf_conntrack_buckets - GKE バージョン 1.32.0-gke.1448000 以降で使用できます。
net.netfilter.nf_conntrack_tcp_timeout_close_wait - GKE バージョン 1.32.0-gke.1448000 以降で使用できます。
net.netfilter.nf_conntrack_tcp_timeout_established - GKE バージョン 1.32.0-gke.1448000 以降で使用できます。
net.netfilter.nf_conntrack_tcp_timeout_time_wait - GKE バージョン 1.32.0-gke.1448000 以降で使用できます。
fs.aio-max-nr
fs.file-max
fs.inotify.max_user_instances
fs.inotify.max_user_watches
fs.nr_open
vm.max_map_count
vm.dirty_background_ratio
vm.dirty_background_bytes
vm.dirty_expire_centisecs
vm.dirty_ratio
vm.dirty_bytes
vm.dirty_writeback_centisecs
vm.overcommit_memory
vm.overcommit_ratio
vm.vfs_cache_pressure
vm.swappiness
vm.watermark_scale_factor
vm.min_free_kbytes

各 sysctl フラグでサポートされている値の詳細については、--system-config-from-file gcloud CLI ドキュメントをご覧ください。

複数の Linux の名前空間が特定の sysctl に対して一意の値を持ち、その他はノード全体でグローバルな値を持っている場合があります。ノードシステム構成を使用して sysctl オプションを更新すると、sysctl がノードと各 Namespace にグローバルに適用されるため、各 Pod の Linux Namespace での sysctl の値が同じになります。

Linux cgroup モード構成オプション

kubelet とコンテナランタイムは、Pod 内の各コンテナがアクセスできる CPU やメモリの量の制限など、リソース管理に Linux カーネルの cgroups を使用します。カーネルの cgroup サブシステムには、cgroupv1 と cgroupv2 の 2 つのバージョンがあります。cgroupv2 の Kubernetes サポートは、Kubernetes v1.18 でアルファ版、v1.22 でベータ版、v1.25 で一般提供されました。詳細については、Kubernetes cgroups v2 のドキュメントをご覧ください。

ノードのシステム構成を使用すると、ノードプールの cgroup 構成をカスタマイズできます。cgroupv1 または cgroupv2 を使用できます。GKE は、バージョン 1.26 以降を実行する新しい Standard ノードプールには cgroupv2 を使用し、1.26 より前のバージョンには cgroupv1 を使用します。ノードの自動プロビジョニングで作成されたノードプールの場合、cgroup 構成はノードプールのバージョンではなく、初期クラスタバージョンによって異なります。cgroupv1 は Arm マシンではサポートされていません。

ノードのシステム構成を使用して、cgroupv1 または cgroupv2 を明示的に使用するようにノードプールを変更できます。既存のノードプールを 1.26 にアップグレードしただけでは、設定は cgroupv2 に変更されません。カスタマイズされた cgroup 構成のない 1.26 より前のバージョンで作成された既存のノードプールは、明示的に指定しない限り、cgroupv1 になります。

たとえば、cgroupv2 を使用するようにノードプールを構成するには、次のようなノードのシステム構成ファイルを使用します。

linuxConfig:
  cgroupMode: 'CGROUP_MODE_V2'

サポートされている cgroupMode オプションは次のとおりです。

CGROUP_MODE_V1: ノードプールで cgroupv1 を使用します。
CGROUP_MODE_V2: ノードプールで cgroupv2 を使用します。
CGROUP_MODE_UNSPECIFIED: デフォルトの GKE cgroup 構成を使用します。

cgroupv2 を使用するには、次の要件と制限が適用されます。

1.26 より前のバージョンを実行しているノードプールの場合は、gcloud CLI バージョン 408.0.0 以降を使用する必要があります。また、バージョン 395.0.0 以降では gcloud beta を使用します。
クラスタとノードプールで GKE バージョン 1.24.2-gke.300 以降を実行する必要があります。
containerd を含む Container-Optimized OS または containerd を含む Ubuntu のノードイメージを使用する必要があります。
いずれかのワークロードが cgroup ファイルシステム（/sys/fs/cgroup/...）の読み取りに依存している場合は、cgroupv2 API と互換性があることを確認してください。
- モニタリングツールまたはサードパーティ製ツールが cgroupv2 と互換性があることを確認します。
JDK（Java ワークロード）を使用している場合は、cgroupv2 を完全にサポートしているバージョン（JDK 8u372、JDK 11.0.16 以降、JDK 15 以降など）を使用することをおすすめします。

cgroup の構成を確認する

ノードシステム構成を追加する場合、GKE は変更を実装するためにノードを再作成します。ノードプールに構成を追加してノードが再作成されたら、新しい構成を確認できます。

ノードプール内のノードの cgroup 構成を確認するには、gcloud CLI または kubectl コマンドラインツールを使用します。

gcloud CLI

ノードプールの cgroup 構成を確認します。

gcloud container node-pools describe POOL_NAME \
    --format='value(Config.effectiveCgroupMode)'

POOL_NAME は、ノードプールの名前に置き換えます。

出力は次のいずれかになります。

EFFECTIVE_CGROUP_MODE_V1: ノードは cgroupv1 を使用します。
EFFECTIVE_CGROUP_MODE_V2: ノードは cgroupv2 を使用します。

出力には、ノードプールのノードが再作成された後の新しい cgroup 構成のみが表示されます。Windows Server ノードプールの場合、出力は空になります。これは、cgroup をサポートしていないためです。

kubectl

kubectl を使用して、このノードプール内のノードの cgroup 構成を確認するには、ノードを選択し、次の手順でそのノードに接続します。

ノードプール内の任意のノードでインタラクティブシェルを作成します。コマンドの mynode は、ノードプール内の任意のノードの名前に置き換えます。
Linux ノードの cgroup のバージョンを確認します。

Linux huge page の構成オプション

ノードシステム構成ファイルを使用して、Linux カーネル機能の huge page を使用できます。

Kubernetes は、CPU やメモリと同様に、リソースの一種としてノード上の huge page をサポートしています。次のパラメータを使用して、Pod で使用する huge page を事前に割り当てるように Kubernetes ノードに指示します。Pod の huge page の使用量を管理するには、HugePages を管理するをご覧ください。

ノードに huge page を事前割り当てするには、量とサイズを指定します。たとえば、1 GB の 3 つの huge page と 2 MB の 1,024 個の huge page を割り当てるようにノードを構成するには、次のようなノードシステム構成を使用します。

linuxConfig:
  hugepageConfig:
    hugepage_size2m: 1024
    hugepage_size1g: 3

huge page を使用するには、次の制限と要件が適用されます。

ノードが huge page によって完全に占有されないようにするには、割り当てられた huge page の全体サイズが、メモリが 30 GB 未満のマシンでは合計メモリの 60%、30 GB を超えるマシンでは 80% を超えないようにします。たとえば、8 GB のメモリを搭載した e2-standard-2 マシンでは、huge page に 4.8 GB を超えるメモリを割り当てることはできません。32 GB のメモリを搭載した c4a-standard-8 では、huge page が 25.6 GB を超えてはなりません。
1 GB の huge page は、A3、C2D、C3、C3D、C4、C4A、C4D、CT5E、CT5LP、CT6E、H3、M2、M3、M4、または Z3 のマシンタイプでのみ使用できます。

Transparent HugePage のサポート

ノードシステム構成ファイルを使用して、Linux カーネル機能の Transparent HugePage Support を有効にできます。Transparent HugePage Support（THP）は、静的 huge page の代替ソリューションです。THP を使用すると、カーネルがプロセスに huge page を自動的に割り当てるため、huge page を手動で予約する必要はありません。次のフィールドがサポートされています。

linuxConfig:
  transparentHugepageEnabled: TRANSPARENT_HUGEPAGE_ENABLED_ALWAYS
  transparentHugepageDefrag: TRANSPARENT_HUGEPAGE_DEFRAG_ALWAYS

transparentHugepageEnabled は、匿名メモリの Transparent Huge Page のサポートを制御します。サポートされている値は次のとおりです。
- TRANSPARENT_HUGEPAGE_ENABLED_ALWAYS: Transparent Huge Page がシステム全体で有効になっています。
- TRANSPARENT_HUGEPAGE_ENABLED_MADVISE: MADV_HUGEPAGE リージョン内で Transparent Huge Page が有効になっています。これがデフォルトのカーネル構成です。
- TRANSPARENT_HUGEPAGE_ENABLED_NEVER: Transparent Huge Page が無効になっています。
- TRANSPARENT_HUGEPAGE_ENABLED_UNSPECIFIED: デフォルト値GKE はカーネル構成を変更しません。
transparentHugepageDefrag は、ノードの Transparent Huge Page のデフラグ構成を定義します。サポートされている値は次のとおりです。
- TRANSPARENT_HUGEPAGE_DEFRAG_ALWAYS: THP をリクエストするアプリケーションは、割り当てに失敗すると停止し、THP を直ちに割り当てるために、ページを直接再利用してメモリを圧縮します。
- TRANSPARENT_HUGEPAGE_DEFRAG_DEFER: アプリケーションがバックグラウンドで kswapd を起動してページを再利用します。kcompactd を起動してメモリを圧縮し、THP を近い将来利用できるようにします。後で THP ページをインストールするのは khugepaged です。
- TRANSPARENT_HUGEPAGE_DEFRAG_DEFER_WITH_MADVISE: アプリケーションは、通常どおり直接再利用と圧縮に入りますが、madvise(MADV_HUGEPAGE) を使用したリージョンのみが対象となります。他のすべてのリージョンは、バックグラウンドで kswapd を起動してページを再利用します。さらに、kcompactd を起動してメモリを圧縮し、近い将来に THP を使用できるようにします。
- TRANSPARENT_HUGEPAGE_DEFRAG_MADVISE: アプリケーションは、通常どおり直接再利用と圧縮に入りますが、madvise(MADV_HUGEPAGE) を使用したリージョンのみが対象となります。他のすべてのリージョンは、バックグラウンドで kswapd を起動してページを再利用します。さらに、kcompactd を起動してメモリを圧縮し、近い将来に THP を使用できるようにします。
- TRANSPARENT_HUGEPAGE_DEFRAG_NEVER: アプリケーションが直接再利用や圧縮に入ることはありません。
- TRANSPARENT_HUGEPAGE_DEFRAG_UNSPECIFIED: デフォルト値GKE はカーネル構成を変更しません。

THP は、GKE バージョン 1.33.2-gke.4655000 以降で使用できます。また、GKE バージョン 1.33.2-gke.4655000 以降では、新しい TPU ノードプールでデフォルトで有効になっています。既存のノードプールをサポートされているバージョン以降にアップグレードしても、THP は有効になりません。

次のステップ

ノードプールの詳細を確認する。
ノードプールを作成する方法を確認する。
GKE ノードで containerd 構成をカスタマイズする方法を学習する。

ノードシステム構成のカスタマイズ

概要

ノードシステム構成の使用

始める前に

構成ファイルの作成

ノードプールへの構成の追加

ノードシステム構成を使用して新しいノードプールを作成する

gcloud CLI

Terraform

既存のノードプールのノードシステム構成を更新する

ノードシステム構成を編集する

ノードプールを作成して編集する

既存のノードプールを更新して編集する

ノードシステム構成を削除する

Kubelet 構成オプション

リソース マネージャー

Sysctl 構成オプション

Linux cgroup モード構成オプション

cgroup の構成を確認する

gcloud CLI

kubectl

Linux huge page の構成オプション

Transparent HugePage のサポート

次のステップ

リソースマネージャー