预配和使用本地 SSD 支持的临时存储空间


本页面介绍了如何在 Google Kubernetes Engine (GKE) 集群上预配本地 SSD 存储空间,以及如何配置工作负载以使用连接到集群中节点的本地 SSD 临时存储空间中的数据。

如需详细了解 GKE 上的本地 SSD 支持,请参阅本地 SSD 存储空间简介

须知事项

在开始之前,请确保您已执行以下任务:

  • 启用 Google Kubernetes Engine API。
  • 启用 Google Kubernetes Engine API
  • 如果您要使用 Google Cloud CLI 执行此任务,请安装初始化 gcloud CLI。 如果您之前安装了 gcloud CLI,请运行 gcloud components update 以获取最新版本。

创建具有本地 SSD 支持的临时存储空间的集群或节点池

使用 Google Cloud CLI 创建具有本地 SSD 支持的临时存储空间的集群或节点池。

使用 --ephemeral-storage-local-ssd 选项挂接由本地 SSD 卷支持的全代管式本地临时存储空间。此存储空间与 Pod 的生命周期绑定。当 Pod 请求临时存储空间时,GKE 会安排它们在拥有已配置为临时存储空间的本地 SSD 卷的节点上运行。

如果您启用了集群自动扩缩,则当集群需要更多临时存储空间时,GKE 会自动扩缩您的节点。您的 Pod 可以通过 emptyDir 卷访问本地 SSD 卷上的数据。

您为创建集群或节点池而运行的 gcloud CLI 命令取决于所选机器类型的机器系列代。例如,N1 和 N2 机器类型分别属于第一代和第二代机器类型,而 C3 机器类型属于第三代机器类型。

创建具有本地 SSD 的集群

第 1 代或第 2 代

如果您使用的是第 1 代或第 2 代机器系列中的机器类型,请通过指定 --ephemeral-storage-local-ssd count=NUMBER_OF_DISKS 选项来创建集群。此选项会指定要挂接到每个节点的本地 SSD 卷的数量。 数量上限因机器类型和区域而异

这些设置仅适用于默认节点池。如果后续节点池需要本地 SSD,请在创建节点池期间指定。

如需创建在 GKE 1.25.3-gke.1800 或更高版本上运行的集群,其中默认池会使用本地 SSD 卷,请运行以下命令:

gcloud container clusters create CLUSTER_NAME \
    --ephemeral-storage-local-ssd count=NUMBER_OF_DISKS \
    --machine-type=MACHINE_TYPE \
    --release-channel CHANNEL_NAME

替换以下内容:

  • CLUSTER_NAME:集群的名称。
  • NUMBER_OF_DISKS:每个节点上预配的本地 SSD 卷的数量。在节点设置期间,这些卷会合并为单个逻辑卷。卷的最大数量因机器类型和区域而异。请注意,部分本地 SSD 容量已预留给系统使用
  • MACHINE_TYPE:要使用的机器类型。此字段是必填字段,因为本地 SSD 不能与默认的 e2-medium 类型搭配使用。
  • CHANNEL_NAME:包含高于 1.25.3-gke.1800 的 GKE 版本的发布渠道。如果您不想使用某一发布渠道,还可以使用 --cluster-version 标志而不是 --release-channel,从而指定高于 1.25.3-gke.1800 的有效版本。如需确定有效版本,请使用 gcloud container get-server-config 命令。

第 3 代

如果您使用第 3 代机器系列中的机器类型,则无需在创建集群时指定任何本地 SSD 选项。挂接到每个节点的磁盘数量取决于机器类型。

如需创建集群,请运行以下命令:

gcloud container clusters create CLUSTER_NAME \
  --machine-type=MACHINE_TYPE \
  --cluster-version CLUSTER_VERSION

替换以下内容:

  • CLUSTER_NAME:集群的名称。
  • MACHINE_TYPE:要使用的第 3 代机器系列中的机器类型。
  • CLUSTER_VERSIONGKE 集群版本,支持在第 3 代机器系列中的机器类型上使用本地 SSD。

创建具有本地 SSD 的节点池

第 1 代或第 2 代

如需创建在 GKE 1.25.3-gke.1800 或更高版本运行且使用本地 SSD 卷的节点池,请运行以下命令:

gcloud container node-pools create POOL_NAME \
    --cluster=CLUSTER_NAME \
    --ephemeral-storage-local-ssd count=NUMBER_OF_DISKS \
    --machine-type=MACHINE_TYPE

替换以下内容:

  • POOL_NAME:新节点池的名称。
  • CLUSTER_NAME:集群的名称。
  • NUMBER_OF_DISKS:每个节点上预配的本地 SSD 卷的数量。在节点设置期间,这些卷会合并为单个逻辑卷。卷的最大数量因机器类型和区域而异。请注意,部分本地 SSD 容量已预留给系统使用
  • MACHINE_TYPE:要使用的机器类型。此字段是必填字段,因为本地 SSD 不能与默认的 e2-medium 类型搭配使用。

第 3 代

如果您使用第 3 代机器系列中的机器类型,则在创建节点池时无需指定任何本地 SSD 选项。挂接到每个节点的卷的数量取决于机器类型。

要创建节点池,请运行以下命令:

gcloud container node-pools create POOL_NAME \
  --cluster=CLUSTER_NAME \
  --machine-type=MACHINE_TYPE \
  --node-version NODE_VERSION

替换以下内容:

  • POOL_NAME:新节点池的名称。
  • CLUSTER_NAME:集群的名称。
  • MACHINE_TYPE:要使用的第 3 代机器系列中的机器类型。
  • NODE_VERSIONGKE 节点池版本,支持在第三代机器系列中的机器类型上使用本地 SSD。

在节点池中创建的节点包含一个 cloud.google.com/gke-ephemeral-storage-local-ssd=true 标签。您可以通过运行以下命令来验证标签:

kubectl describe node NODE_NAME

将本地 SSD 支持的临时存储空间与 Autopilot 集群搭配使用

您可以在以下 Autopilot 计算类中使用本地 SSD:

  • Performance
  • Accelerator

对于 Performance 类,请按照在性能类 Pod 中使用本地 SSD 的说明操作。

对于 Accelerator 计算类,如果使用 NVIDIA L4 GPU 并运行 GKE 补丁版本 1.28.6-gke.1369000 及更高版本或 1.29.1-gke.1575000 及更高版本,则可以将本地 SSD 用于临时存储。NVIDIA H100 (80GB) GPU 和 NVIDIA A100 (80GB) GPU 始终使用本地 SSD 进行临时存储,您无法为这些 GPU 指定以下节点选择器。

如需将本地 SSD 用于临时存储,请将 cloud.google.com/gke-ephemeral-storage-local-ssd: "true" nodeSelector 添加到您的工作负载清单。您的 Pod 规范应类似于以下示例:

apiVersion: v1
kind: Pod
metadata:
  name: l4-localssd-pod
spec:
  containers:
  - name: my-gpu-container
    image: nvidia/cuda:11.0.3-runtime-ubuntu20.04
    command: ["/bin/bash", "-c", "--"]
    args: ["while true; do sleep 600; done;"]
    resources:
      requests:
        cpu: 16
        memory: 64Gi
        ephemeral-storage: 800Gi
      limits:
       cpu: 16
       memory: 64Gi
       ephemeral-storage: 800Gi
       nvidia.com/gpu: 8
  nodeSelector:
    cloud.google.com/gke-accelerator: nvidia-l4
    cloud.google.com/compute-class: Accelerator
    cloud.google.com/gke-ephemeral-storage-local-ssd: "true"

使用旧版 API 参数

--local-ssd-count 选项是一个支持 SCSI 本地 SSD 的旧版 API 参数。Compute Engine 第三代机器系列不支持 SCSI,仅支持 NVMe。此选项应仅用于 Windows Server 集群。如果您目前在 Linux 集群上使用旧版 API 参数,我们建议您改用 --ephemeral-storage-local-ssd 选项。

Windows Server 集群上的本地 SSD

将本地 SSD 与运行 Windows 节点池的集群配合使用时,需要先登录到节点并设置卷的格式,然后才能使用。以下示例使用 NTFS 文件系统设置本地 SSD 卷的格式。您还可以在卷下面创建目录。在此示例中,目录位于磁盘 D 下。

PS C:\> Get-Disk | Where partitionstyle -eq 'raw' | Initialize-Disk -PartitionStyle MBR -PassThru | New-Partition -AssignDriveLetter -UseMaximumSize | Format-Volume -FileSystem ntfs -Confirm:$false
PS C:\> mkdir D:\test-ssd

访问本地 SSD 卷

以下示例展示了如何访问本地 SSD 支持的临时存储空间。

作为 emptyDir 卷的临时存储空间

GKE 节点池可以配置为使用本地 SSD 作为临时存储空间,包括 emptyDir 卷。

以下 Pod 清单使用 emptyDir 和节点选择器 cloud.google.com/gke-ephemeral-storage-local-ssd。您可以对 Deployment 清单或 StatefulSet 清单应用类似技术。

选择临时存储资源请求时,请考虑为系统使用预留的本地 SSD 容量。

apiVersion: v1
kind: Pod
metadata:
  name: POD_NAME
spec:
  containers:
    - name: CONTAINER_NAME
      image: "registry.k8s.io/pause"
      resources:
        requests:
          ephemeral-storage: "200Gi"
      volumeMounts:
        - mountPath: /cache
          name: scratch-volume
  nodeSelector:
    cloud.google.com/gke-ephemeral-storage-local-ssd: "true"
  volumes:
    - name: scratch-volume
      emptyDir: {}

问题排查

如需了解问题排查说明,请参阅对 GKE 中的存储空间进行问题排查

后续步骤