设置和管理 Cloud TPU 资源
-
设置项目并启用 Cloud TPU API
设置 Google Cloud 项目并启用 Cloud TPU API。
-
连接到 Cloud Storage 存储桶
将机器学习数据存储在 Cloud Storage 存储桶中。向 Cloud TPU 授予对存储桶中的数据对象的访问权限。
-
管理 TPU
管理 Cloud TPU 资源。
-
管理已加入队列的资源
以排队方式请求 Cloud TPU。
-
监控 Cloud TPU 虚拟机
监控 Cloud TPU 虚拟机。
-
监控 Cloud TPU 节点
监控 Cloud TPU 节点。
-
使用 Cloud TPU Pod 管理维护事件
了解 Compute Engine 虚拟机维护事件以及如何在维护事件发生后恢复 Cloud TPU Pod。
-
使用 Ray 扩缩机器学习工作负载
使用 Cloud TPU Ray 工具扩缩机器学习工作负载。
-
抢占式 TPU
如何允许 Cloud TPU 抢占您的 TPU 以供其他工作负载使用,以及这样做的原因。
-
Cloud TPU 审核日志
访问和使用 Cloud TPU 审核日志。
-
在 Cloud TPU 上切换软件版本
在您的 Cloud TPU 上切换软件版本。
-
将永久性磁盘添加到 TPU 虚拟机
向 TPU 虚拟机添加永久性磁盘以扩展本地磁盘容量。
准备数据集
Cloud TPU 性能指南
-
在 Cloud TPU 节点上分析模型
使用 TensorBoard 和命令行工具监控和分析 Cloud TPU 节点。
-
在 Cloud TPU 虚拟机上分析模型
使用 TensorBoard 和命令行工具监控和分析 Cloud TPU 虚拟机。
-
Cloud TPU 性能指南
排查 Cloud TPU 性能问题。
-
TensorFlow 性能分析
介绍如何将 Cloud TPU 性能工具和指标自动分析功能与 TensorFlow 搭配使用。
-
PyTorch XLA 性能剖析
介绍如何将 Cloud TPU 性能工具与 PyTorch 指标自动分析功能结合使用。
-
JAX 性能剖析指南
介绍如何在 TPU Pod 切片上运行 JAX 代码。