NUMA 対応の VM スケジューリングを構成する

このドキュメントでは、不均一メモリアクセス（NUMA）のコンピューティング効率で、高パフォーマンスと低レイテンシのワークロードをサポートするようにクラスタと VM を構成する方法について説明します。クラスタノードの Kubernetes 設定を調整する手順があります。このドキュメントでは、NUMA アフィニティで仮想マシン（VM）を構成し、NUMA ノードを活用する手順についても記載します。

NUMA 対応の VM では、VM 内のすべての通信は NUMA ノードに対してローカルです。NUMA 対応の VM は、VM のパフォーマンスを低下させる可能性があるリモートリソースとの間のデータトランザクションを回避します。

ノードを構成して NUMA を使用する

以下のセクションでは、重要な Kubernetes コンポーネントを構成してノードを調整し、NUMA 対応のコンテナをスケジューリングできるようにする方法について説明します。これらの NUMA ノードは、CPU とメモリのパフォーマンスが最適化されるように調整されています。NUMA 対応の VM を実行する各ノードの手順に従います。

kubelet 構成を更新する

NUMA ノードアフィニティをサポートするノード構成の一部として、kubelet 構成に次の変更を加える必要があります。

static ポリシーで CPU Manager を有効にする
Static ポリシーで Memory Manager を有効にする
restricted トポロジで Topology Manager を有効にする

ワーカーノードで kubelet を構成するには:

ワーカーノードで kubelet ファイルを見つけて、編集のために開きます。
```
edit /etc/default/kubelet
```
kubelet ファイルが表示されない場合は、次のコマンドを使用して作成します。
```
echo "KUBELET_EXTRA_ARGS=\"\"" >> /etc/default/kubelet
```
このコマンドは、空の KUBELET_EXTRA_ARGS="" セクションを含む kubelet ファイルを作成します。
static ポリシーで CPU Manager を有効にするには、ファイルの KUBELET_EXTRA_ARGS="" セクションに --cpu-manager-policy=static フラグを追加します。
```
KUBELET_EXTRA_ARGS="--cpu-manager-policy=static"
```
Static ポリシーで Memory Manager を有効にするには、ファイルの KUBELET_EXTRA_ARGS="" セクションに --memory-manager-policy=Static フラグを追加します。
```
KUBELET_EXTRA_ARGS="--cpu-manager-policy=static --memory-manager-policy=Static"
```
restricted ポリシーで Topology Manager を有効にするには、ファイルの KUBELET_EXTRA_ARGS="" セクションに --topology-manager-policy=restricted フラグを追加します。
```
KUBELET_EXTRA_ARGS="--cpu-manager-policy=static --memory-manager-policy=Static --topology-manager-policy=restricted"
```

GKE on Bare Metal が予約している現在のメモリ量を確認します。

cat /var/lib/kubelet/kubeadm-flags.env

出力は次のようになります。

KUBELET_KUBEADM_ARGS="--anonymous-auth=false --authentication-token-webhook=true --authorization-mode=Webhook --container-runtime=remote --container-runtime-endpoint=unix:///run/containerd/containerd.sock --feature-gates=SeccompDefault=true --kube-reserved=cpu=100m,memory=3470Mi --max-pods=110 --node-ip=192.168.1.190 --node-labels=baremetal.cluster.gke.io/k8s-ip=192.168.1.190,baremetal.cluster.gke.io/namespace=cluster-user001,baremetal.cluster.gke.io/node-pool=node-pool-1,cloud.google.com/gke-nodepool=node-pool-1 --pod-infra-container-image=gcr.io/anthos-baremetal-release/pause-amd64:3.1-gke.5 --provider-id=baremetal://192.168.1.190 --read-only-port=10255 --rotate-server-certificates=true --seccomp-default=true"

--kube-reserved=cpu=100m,memory=3470Mi 設定は、GKE on Bare Metal がノード上で 3,470 メビバイトのメモリを予約したことを示します。

エビクションしきい値を考慮して、kubelet ファイルの KUBELET_EXTRA_ARGS セクションの --reserved-memory フラグを現在の予約済みメモリよりも 100 メビバイト大きく設定します。予約済みメモリがない場合は、この手順をスキップできます。

たとえば、前の手順の例の 3470Mi の予約済みメモリで、kubelet ファイルで 3570Mi のメモリを予約します。
```
KUBELET_EXTRA_ARGS="--cpu-manager-policy=static --memory-manager-policy=Static --topology-manager-policy=restricted --reserved-memory=0:memory=3570Mi"
```
CPU とメモリの状態ファイルを /var/lib ディレクトリから削除します。
```
rm /var/lib/cpu_manager_state
rm /var/lib/memory_manager_state
```
kubelet を再起動します。
```
systemctl start kubelet
```

これらのポリシー設定の詳細については、次の Kubernetes ドキュメントをご覧ください。

hugepages を使用するようにノードを構成する

Static ポリシーで Memory Manager を有効にしたら、hugepages を追加して、NUMA ノードでのコンテナワークロードのパフォーマンスをさらに向上させることができます。hugepages は、その名前が示すように、標準の 4 キビバイト（KiB）よりも大きいメモリページを指定できます。GDC 上の VM ランタイムは、2 メビバイト（MiB）と 1 ギビバイト（GiB）の hugepages をサポートします。ランタイムにノードを設定するか、ノードマシンの起動時に hugepages を設定できます。NUMA 対応の VM を実行する各ノードで hugepages を構成することをおすすめします。

ランタイムに NUMA ノード上の特定のサイズの hugepages の数を構成するには、次のコマンドを使用します。
```
echo HUGEPAGE_QTY > \
    /sys/devices/system/node/NUMA_NODE/hugepages/hugepages-HUGEPAGE_SIZEkB/nr_hugepages
```
以下を置き換えます。
- HUGEPAGE_QTY: 指定したサイズを割り当てる hugepages の数。
- NUMA_NODE: hugepage を割り当てる node0 などの NUMA ノード。
- HUGEPAGE_SIZE: hugepages のサイズ（キビバイト単位）、2048（2 MiB）または 1048576（1 GiB）。

VM を構成して NUMA ノードを使用する

NUMA 用にクラスタノードを調整したら、NUMA 対応の VM を作成できます。NUMA 対応の VM は、NUMA ノードでスケジューリングされます。

NUMA 対応の VM を作成するには:

手順に従って、マニフェストから VM を作成します。

次の compute 設定を使用して、VM を NUMA対応に構成します。
- spec.compute.guaranteed: guaranteed を true に設定します。この設定では、virt-launcher Pod は Kubernetes 保証付きの Quality of Service（QoS）クラスに配置されます。
- spec.compute.advancedCompute:
  - dedicatedCPUPlacement: dedicatedCPUPlacement を true に設定します。この設定では、仮想 CPU がノードの物理 CPU に固定されます。
  - hugePageSize: hugePageSize を 2Mi と 1Gi のいずれかに設定して、VM で使用する hugepages のサイズを 2 MB または 1 GiB で指定します。
  - numaGuestMappingPassthrough: この設定の空の構造（{}）を含めます。この設定によって NUMA アフィニティが確立され、VM は NUMA ノードでのみスケジュールされます。
次の VirtualMachine マニフェストの例は、NUMA 対応の VM 構成がどのようになるかを示しています。
```
apiVersion: vm.cluster.gke.io/v1
kind: VirtualMachine
metadata:
  name: vm1
spec:
  compute:
    cpu:
      vcpus: 2
    guaranteed: true
    advancedCompute:
      dedicatedCPUPlacement: true
      hugePageSize: 2Mi
      numaGuestMappingPassthrough: {}
    memory:
      capacity: 256Mi
  interfaces:
  - name: eth0
    networkName: pod-network
    default: true
  disks:
  - virtualMachineDiskName: disk-from-gcs
    boot: true
    readOnly: true
```