常见问题解答 - Cloud TPU
本文档包含有关 Cloud TPU 的常见问题解答列表。它分为以下几个部分:
- 与框架无关的常见问题解答 - 无论您使用的是哪种机器学习框架,都可以提出有关使用 Cloud TPU 的问题。
- JAX 常见问题解答 - 有关将 Cloud TPU 与 JAX 搭配使用的问题。
- PyTorch 常见问题解答 - 有关将 Cloud TPU 与 PyTorch 搭配使用的问题。
与框架无关的常见问题解答
如何检查 Cloud TPU 虚拟机上的哪个进程正在使用 TPU?
在 Cloud TPU 虚拟机上运行 tpu-info,以输出使用 TPU 的进程的进程 ID 和其他信息。如需了解指标及其对应的定义,请参阅支持的指标。
   tpu-info
tpu-info 的输出类似于以下内容:
   TPU Chips
   ┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━┓
   ┃ Chip        ┃ Type        ┃ Devices ┃ PID    ┃
   ┡━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━┩
   │ /dev/accel0 │ TPU v4 chip │ 1       │ 130007 │
   │ /dev/accel1 │ TPU v4 chip │ 1       │ 130007 │
   │ /dev/accel2 │ TPU v4 chip │ 1       │ 130007 │
   │ /dev/accel3 │ TPU v4 chip │ 1       │ 130007 │
   └─────────────┴─────────────┴─────────┴────────┘
   TPU Runtime Utilization
   ┏━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
   ┃ Device ┃ Memory usage         ┃ Duty cycle ┃
   ┡━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
   │ 0      │ 0.00 GiB / 31.75 GiB │      0.00% │
   │ 1      │ 0.00 GiB / 31.75 GiB │      0.00% │
   │ 2      │ 0.00 GiB / 31.75 GiB │      0.00% │
   │ 3      │ 0.00 GiB / 31.75 GiB │      0.00% │
   └────────┴──────────────────────┴────────────┘
   TensorCore Utilization
   ┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┓
   ┃ Chip ID ┃ TensorCore Utilization ┃
   ┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━┩
   │ 0       │                  0.00% │
   │ 1       │                  0.00% │
   │ 3       │                  0.00% │
   │ 2       │                  0.00% |
   └─────────┴────────────────────────┘
   Buffer Transfer Latency
   ┏━━━━━━━━━━━━━┳━━━━━┳━━━━━┳━━━━━┳━━━━━━┓
   ┃ Buffer Size ┃ P50 ┃ P90 ┃ P95 ┃ P999 ┃
   ┡━━━━━━━━━━━━━╇━━━━━╇━━━━━╇━━━━━╇━━━━━━┩
   │       8MB+  | 0us │ 0us │ 0us │  0us |
   └─────────────┴─────┴─────┴─────┴──────┘
如何将永久性磁盘卷添加到 Cloud TPU 虚拟机?
如需了解详情,请参阅将永久性磁盘添加到 TPU 虚拟机。
使用 TPU 虚拟机进行训练时,支持或推荐哪些存储选项?
如需了解详情,请参阅 Cloud TPU 存储选项。
JAX 常见问题解答
如何知道我的程序是否在使用 TPU?
您可以通过以下几种方式仔细检查 JAX 是否在使用 TPU:
- 使用 - jax.devices()函数。例如:- assert jax.devices()[0].platform == 'tpu'
- 对程序进行性能分析,并验证性能分析是否包含 TPU 操作。如需了解详情,请参阅对 JAX 程序进行性能分析。 
如需了解详情,请参阅 JAX 常见问题解答
PyTorch 常见问题解答
如何知道我的程序是否在使用 TPU?
您可以运行以下 Python 命令:
>>> import torch_xla.core.xla_model as xm
>>> xm.get_xla_supported_devices(devkind="TPU")
并验证您是否可以看到任何 TPU 设备。