Cloud TPU 数据的存储方案

本文档介绍了在 Cloud TPU 上训练模型时可以使用的数据存储方案。

简介

Cloud TPU 需要使用数据存储来执行以下操作:

  • 数据集下载和预处理
  • 主机输入流水线处理
  • 模型训练输入
  • 模型训练输出

Cloud TPU 应用数据和 训练数据集:

如需详细了解存储费用和性能,请参阅存储方案

TPU 虚拟机的启动磁盘

默认情况下,每个 Cloud TPU 虚拟机都有一个 100GB 单启动永久性磁盘 包含操作系统启动磁盘还可用于 下载的数据集用于预处理和模型输入和输出数据,提供的 但总量不会超过启动磁盘上的可用空间。

如果训练应用需要额外的存储空间,而不只是启动 磁盘默认值,您可以向自己的虚拟机或 TPU 虚拟机添加一个或多个永久性磁盘 实例。将永久性磁盘添加到 Compute Engine 虚拟机TPU 虚拟机

挂接到 TPU 虚拟机的永久性磁盘

永久性磁盘是耐用网络 可供虚拟机实例访问的存储设备, 还是服务器每个永久性磁盘上的数据分布在多个物理磁盘中。Compute Engine 负责管理物理磁盘和 数据分布情况,以确保冗余并实现最佳性能。

永久性磁盘独立于虚拟机 (VM) 创建 因此即使在删除虚拟机实例后,您也可以保留数据。 永久性磁盘的性能会随容量变化而自动扩缩,因此您可以自行调整容量 或者向实例添加更多永久性磁盘 满足您的性能和存储空间要求

永久性磁盘具有内置冗余,可保护您的数据免受设备攻击 并通过数据中心维护事件确保数据可用性。 系统会针对所有永久性磁盘操作计算校验和,因此我们可以确保 你阅读的内容就是你写的内容

此外,您还可以创建快照 永久性磁盘的容量,以防止因用户错误而导致数据丢失。快照 并且只需几分钟即可创建 连接到正在运行的实例

如需详细了解如何将永久性磁盘与 TPU 虚拟机搭配使用,请参阅 向 TPU 虚拟机添加永久性磁盘

Cloud Storage 存储桶

Cloud Storage 存储分区是 为虚拟机实例提供最灵活、可伸缩和持久的存储方案。如果 您的训练作业不需要永久性磁盘的较短延迟时间, 可以将数据集存储在 Cloud Storage 存储桶中。

Cloud Storage 存储分区的性能取决于存储类别 以及存储桶相对于实例的位置。

在 TPU 虚拟机的性能不逊于 永久性磁盘,但延迟时间较长,吞吐量一致性较低 特征。

所有 Cloud Storage 存储分区都具有内置冗余功能,可保护您的 防止数据泄露,并通过数据确保数据可用性 维护事件系统会针对所有 Cloud Storage 操作计算校验和,以帮助确保您所读取的内容就是您所写入的内容。

与永久性磁盘不同,Cloud Storage 存储分区不受限制 您的实例所在的可用区此外,您可以同时在多个实例的存储分区中读取和写入数据。例如,您可以将多个地区中的实例配置为在同一个存储分区中读取和写入数据,而不是将数据复制到多个地区的永久性磁盘中。

Cloud Storage FUSE

借助 Cloud Storage FUSE,您可以装载和访问 Cloud Storage 存储分区 用作本地文件系统这样,应用就可以在 使用标准文件系统语义存储到存储桶中

如需了解详情,请参阅 Cloud Storage FUSE 文档 Cloud Storage FUSE 工作原理以及 Cloud Storage 工作原理说明 FUSE 操作与 Cloud Storage 操作相对应。您可在 有关如何使用 Cloud Storage FUSE 的信息, Cloud Storage FUSE CLI 以及 GitHub 上装载存储分区。

Filestore 文件共享

Filestore 文件共享是 Compute Engine 的全代管式网络附加存储 (NAS)。Filestore 与现有企业应用兼容,并支持 与 NFSv3 兼容的客户端。

Filestore 为文件提供低延迟 operations.适用于对延迟时间敏感的工作负载,Filestore 支持 容量高达 100 TB,吞吐量为每秒 25 GB 和 IOPS 为 720K, 尽可能降低性能变化。

借助 Filestore,您可以装载文件共享 使用 TPU 虚拟机

后续步骤