常見問題 - Cloud TPU
這份文件列出了 Cloud TPU 的相關常見問題。這份文件分成幾個部分:
- 與架構無關的常見問題 - 關於使用 Cloud TPU 的問題,無論您使用哪種機器學習架構都適用。
 - JAX 常見問題 - 有關搭配使用 Cloud TPU 和 JAX 的問題。
 - PyTorch 常見問題 - 關於搭配使用 Cloud TPU 和 PyTorch 的問題。
 
與架構無關的常見問題
如何檢查 Cloud TPU VM 上有哪些程序正在使用 TPU?
在 Cloud TPU VM 上執行 tpu-info,使用 TPU 列印程序 ID 和其他程序資訊。如需指標及其對應定義,請參閱支援的指標。
   tpu-info
tpu-info 的輸出內容會與下列內容相似:
   TPU Chips
   ┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━┓
   ┃ Chip        ┃ Type        ┃ Devices ┃ PID    ┃
   ┡━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━┩
   │ /dev/accel0 │ TPU v4 chip │ 1       │ 130007 │
   │ /dev/accel1 │ TPU v4 chip │ 1       │ 130007 │
   │ /dev/accel2 │ TPU v4 chip │ 1       │ 130007 │
   │ /dev/accel3 │ TPU v4 chip │ 1       │ 130007 │
   └─────────────┴─────────────┴─────────┴────────┘
   TPU Runtime Utilization
   ┏━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
   ┃ Device ┃ Memory usage         ┃ Duty cycle ┃
   ┡━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
   │ 0      │ 0.00 GiB / 31.75 GiB │      0.00% │
   │ 1      │ 0.00 GiB / 31.75 GiB │      0.00% │
   │ 2      │ 0.00 GiB / 31.75 GiB │      0.00% │
   │ 3      │ 0.00 GiB / 31.75 GiB │      0.00% │
   └────────┴──────────────────────┴────────────┘
   TensorCore Utilization
   ┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┓
   ┃ Chip ID ┃ TensorCore Utilization ┃
   ┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━┩
   │ 0       │                  0.00% │
   │ 1       │                  0.00% │
   │ 3       │                  0.00% │
   │ 2       │                  0.00% |
   └─────────┴────────────────────────┘
   Buffer Transfer Latency
   ┏━━━━━━━━━━━━━┳━━━━━┳━━━━━┳━━━━━┳━━━━━━┓
   ┃ Buffer Size ┃ P50 ┃ P90 ┃ P95 ┃ P999 ┃
   ┡━━━━━━━━━━━━━╇━━━━━╇━━━━━╇━━━━━╇━━━━━━┩
   │       8MB+  | 0us │ 0us │ 0us │  0us |
   └─────────────┴─────┴─────┴─────┴──────┘
如何將永久磁碟磁碟區新增至 Cloud TPU VM?
詳情請參閱「將永久磁碟新增至 TPU VM」。
使用 TPU VM 訓練模型時,支援或建議使用哪些儲存空間選項?
詳情請參閱 Cloud TPU 儲存空間選項。
JAX 常見問題
如何判斷我的程式是否正在使用 TPU?
如要確認 JAX 是否使用 TPU,有幾種方法:
使用
jax.devices()函式。例如:assert jax.devices()[0].platform == 'tpu'分析程式,並確認設定檔包含 TPU 作業。詳情請參閱「剖析 JAX 程式」。
詳情請參閱 JAX 常見問題
PyTorch 常見問題
如何判斷我的程式是否正在使用 TPU?
您可以執行下列 Python 指令:
>>> import torch_xla.core.xla_model as xm
>>> xm.get_xla_supported_devices(devkind="TPU")
並確認是否能看到任何 TPU 裝置。