Parallelstore 是一种全托管式低延迟分布式文件系统,旨在满足 AI/机器学习训练和高性能计算 (HPC) 工作负载的需求,这些工作负载需要极低的延迟时间(小于 1 毫秒)、完整的 POSIX 语义和高元数据操作吞吐量。Parallelstore 可扩容至 1 TB/s 的读取速度和数百万次 IOPS。
如需将 Google Kubernetes Engine (GKE) 集群连接到 Parallelstore 实例,请使用 Parallelstore Container Storage Interface (CSI) 驱动程序。借助 Parallelstore CSI 驱动程序,您可以使用 GKE API 将 Parallelstore 实例用作有状态工作负载(例如 Pod 和 Job)的卷。它针对 AI/ML 训练工作负载进行了优化,尤其是涉及较小文件大小和随机读取的工作负载。
创建新的 GKE Autopilot 集群时,GKE 默认会为您启用 CSI 驱动程序。在新的和现有的 GKE Standard 集群上,您需要启用 CSI 驱动程序。
优势
您可以使用 Parallelstore CSI 驱动程序来充分利用高性能存储。借助 Parallelstore CSI 驱动程序,您可以快速、一致地访问共享数据,从而高效处理和分析数据,从而加速高性能计算和 AI/机器学习训练工作负载。
- 您可以通过 Kubernetes API 访问全托管式并行文件系统作为存储空间。
- Google Kubernetes Engine Parallelstore CSI 驱动程序支持 ReadWriteMany、ReadOnlyMany 和 ReadWriteOnce 访问模式。
- 您可以使用 Google Kubernetes Engine Parallelstore CSI 驱动程序来动态预配 PersistentVolume。
- 您可以在 Kubernetes 工作负载中访问现有的 Parallelstore 实例。您还可以动态创建 Parallelstore 实例,并在具有 StatefulSet 或 Deployment 的 Kubernetes 工作负载中使用这些实例。
限制
- 数据持久性:Parallelstore 是一个“备用”文件系统。它由本地 SSD 提供支持,并采用 2+1 擦除编码,数据丢失的平均时间为两个月。Parallelstore 不是长期存储空间,而应被视为适用于特定工作负载的极快文件系统。
- 每个 Pod 的限制:GKE 支持为每个 Pod 装载一个 Parallelstore 实例。
- 数据传输:GKE API 不支持将数据从 Cloud Storage 传输到 Parallelstore。如需执行转移,请使用 Parallelstore API。
- 可用容量:您可以将存储容量配置为 12,000 GiB 到 100,000 GiB 之间的任意值。
- 支持的可用区:这些可用区支持并行存储。如果您的集群所在区域与 Parallelstore 实例所在区域不同,I/O 性能会明显下降。
- Parallelstore 的 VPC-SC 限制:如果您同时使用共享 VPC 和 VPC Service Controls,则提供网络的宿主项目与包含 Parallelstore 实例的服务项目必须位于相同边界内,这样 Parallelstore 实例才能正常运行。使用边界分离宿主项目和服务项目可能会导致现有实例不可用,并且可能无法创建新实例。
要求
如需使用 Parallelstore CSI 驱动程序,您的集群必须满足以下要求:
- 确保您已安装最新版本的 Google Cloud CLI。此功能支持的最低 gcloud CLI 版本为 469.0.0 或更高版本。
- 使用 Google Kubernetes Engine 集群版本 1.29 或更高版本。
后续步骤
- 创建并使用由 Parallelstore 实例 Google Kubernetes Engine 提供支持的卷。
- 从 Google Kubernetes Engine 访问现有的 Parallelstore 实例。