关于 Google Kubernetes Engine Parallelstore CSI 驱动程序


Parallelstore 仅限受邀者使用。如果您想在 Google Cloud 项目中申请访问 Parallelstore,请与您的销售代表联系。

Parallelstore 是一种全托管式低延迟分布式文件系统,旨在满足 AI/机器学习训练和高性能计算 (HPC) 工作负载的需求,这些工作负载需要极低的延迟时间(小于 1 毫秒)、完整的 POSIX 语义和高元数据操作吞吐量。Parallelstore 可扩容至 1 TB/s 的读取速度和数百万次 IOPS。

如需将 Google Kubernetes Engine (GKE) 集群连接到 Parallelstore 实例,请使用 Parallelstore Container Storage Interface (CSI) 驱动程序。借助 Parallelstore CSI 驱动程序,您可以使用 GKE API 将 Parallelstore 实例用作有状态工作负载(例如 Pod 和 Job)的卷。它针对 AI/ML 训练工作负载进行了优化,尤其是涉及较小文件大小和随机读取的工作负载。

创建新的 GKE Autopilot 集群时,GKE 默认会为您启用 CSI 驱动程序。在新的和现有的 GKE Standard 集群上,您需要启用 CSI 驱动程序。

优势

您可以使用 Parallelstore CSI 驱动程序来充分利用高性能存储。借助 Parallelstore CSI 驱动程序,您可以快速、一致地访问共享数据,从而高效处理和分析数据,从而加速高性能计算和 AI/机器学习训练工作负载。

  • 您可以通过 Kubernetes API 访问全托管式并行文件系统作为存储空间。
  • Google Kubernetes Engine Parallelstore CSI 驱动程序支持 ReadWriteManyReadOnlyManyReadWriteOnce 访问模式
  • 您可以使用 Google Kubernetes Engine Parallelstore CSI 驱动程序来动态预配 PersistentVolume。
  • 您可以在 Kubernetes 工作负载中访问现有的 Parallelstore 实例。您还可以动态创建 Parallelstore 实例,并在具有 StatefulSetDeployment 的 Kubernetes 工作负载中使用这些实例。

限制

  • 数据持久性:Parallelstore 是一个“备用”文件系统。它由本地 SSD 提供支持,并采用 2+1 擦除编码,数据丢失的平均时间为两个月。Parallelstore 不是长期存储空间,而应被视为适用于特定工作负载的极快文件系统。
  • 每个 Pod 的限制:GKE 支持为每个 Pod 装载一个 Parallelstore 实例。
  • 数据传输:GKE API 不支持将数据从 Cloud Storage 传输到 Parallelstore。如需执行转移,请使用 Parallelstore API。
  • 可用容量:您可以将存储容量配置为 12,000 GiB 到 100,000 GiB 之间的任意值。
  • 支持的可用区:这些可用区支持并行存储。如果您的集群所在区域与 Parallelstore 实例所在区域不同,I/O 性能会明显下降。
  • Parallelstore 的 VPC-SC 限制:如果您同时使用共享 VPC 和 VPC Service Controls,则提供网络的宿主项目与包含 Parallelstore 实例的服务项目必须位于相同边界内,这样 Parallelstore 实例才能正常运行。使用边界分离宿主项目和服务项目可能会导致现有实例不可用,并且可能无法创建新实例。

要求

如需使用 Parallelstore CSI 驱动程序,您的集群必须满足以下要求:

  • 确保您已安装最新版本的 Google Cloud CLI。此功能支持的最低 gcloud CLI 版本为 469.0.0 或更高版本。
  • 使用 Google Kubernetes Engine 集群版本 1.29 或更高版本。

后续步骤