方法指南
-
设置 Google Cloud 帐号和项目
设置 Cloud Billing 帐号和项目。
-
激活 Cloud TPU API
激活 Compute Engine 和 Cloud TPU API。
-
连接 Cloud Storage 存储分区
将机器学习数据存储在 Cloud Storage 存储桶中。为 Cloud TPU 授予对存储桶中数据对象的访问权限。
-
Cloud TPU 虚拟机用户指南
介绍如何设置 Google Cloud 项目以使用 Cloud TPU 虚拟机。
-
PyTorch XLA 用户指南
介绍如何使用 PyTorch/XLA 运行机器学习工作负载。
-
PyTorch XLA 性能剖析
介绍如何将 Cloud TPU 性能工具和指标自动分析功能与 PyTorch 搭配使用。
-
在 TPU Pod 切片上运行 JAX 代码
介绍如何在 TPU Pod 切片上运行 JAX 代码。
-
JAX 性能剖析指南
介绍如何在 TPU Pod 切片上运行 JAX 代码。
-
管理 TPU
逐步设置 Cloud TPU 或删除节点。
-
使用 Cloud TPU 工具
使用 TensorBoard 和命令行工具监控 Cloud TPU 和模型训练。
-
使用 Cloud TPU Pod 管理维护事件
了解 Compute Engine 虚拟机维护事件以及如何在维护事件后恢复 Cloud TPU Pod。
-
设置 TensorBoard
设置 TensorBoard 以直观呈现和监控训练应用的输出和性能。
-
使用 Stackdriver 监控 Cloud TPU
使用 Stackdriver 监控 Cloud TPU显示日志并支持为 Cloud TPU 运行时二进制文件创建基于日志的指标。提供用于根据日志指标创建信息中心和提醒的工具。
-
准备 ImageNet 数据集
如何下载、预处理 ImageNet 数据集并将其上传到 Cloud Storage 存储桶。
-
准备 COCO 数据集
如何下载、预处理 COCO 数据集并将其上传到 Cloud Storage 存储桶。
-
搭配使用 TPU 与 GKE
介绍如何使用 Google Kubernetes Engine 来设置 Cloud TPU 的指南。
-
抢占式 TPU
如何允许 Cloud TPU 抢占您的 TPU 以供其他工作负载使用,以及这样做的原因。
-
Cloud TPU 审核日志
访问和使用 Cloud TPU 审核日志。
-
Cloud TPU 版本切换
在 Cloud TPU 上切换软件版本
-
共享 VPC 网络
如何设置使用集中管理的共享 VPC 网络的 Cloud TPU。
-
具有共享 VPC 网络的 GKE 集群
如何使用由共享 VPC 网络管理的 Cloud TPU 配置设置 GKE 集群。