常見問題 - Cloud TPU
這份文件列出了 Cloud TPU 的相關常見問題。這份文件分成幾個部分:
- 與架構無關的常見問題 - 關於使用 Cloud TPU 的問題,無論您使用哪種機器學習架構都適用。
- JAX 常見問題 - 有關搭配使用 Cloud TPU 和 JAX 的問題。
- PyTorch 常見問題 - 關於搭配使用 Cloud TPU 和 PyTorch 的問題。
與架構無關的常見問題
如何檢查 Cloud TPU VM 上有哪些程序正在使用 TPU?
在 Cloud TPU VM 上執行 tpu-info
,使用 TPU 列印程序 ID 和其他程序資訊。如需指標及其對應定義,請參閱支援的指標。
tpu-info
tpu-info
的輸出內容會與下列內容相似:
TPU Chips
┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━┓
┃ Chip ┃ Type ┃ Devices ┃ PID ┃
┡━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━┩
│ /dev/accel0 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel1 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel2 │ TPU v4 chip │ 1 │ 130007 │
│ /dev/accel3 │ TPU v4 chip │ 1 │ 130007 │
└─────────────┴─────────────┴─────────┴────────┘
TPU Runtime Utilization
┏━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
┃ Device ┃ Memory usage ┃ Duty cycle ┃
┡━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
│ 0 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 1 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 2 │ 0.00 GiB / 31.75 GiB │ 0.00% │
│ 3 │ 0.00 GiB / 31.75 GiB │ 0.00% │
└────────┴──────────────────────┴────────────┘
TensorCore Utilization
┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┓
┃ Chip ID ┃ TensorCore Utilization ┃
┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━┩
│ 0 │ 0.00% │
│ 1 │ 0.00% │
│ 3 │ 0.00% │
│ 2 │ 0.00% |
└─────────┴────────────────────────┘
Buffer Transfer Latency
┏━━━━━━━━━━━━━┳━━━━━┳━━━━━┳━━━━━┳━━━━━━┓
┃ Buffer Size ┃ P50 ┃ P90 ┃ P95 ┃ P999 ┃
┡━━━━━━━━━━━━━╇━━━━━╇━━━━━╇━━━━━╇━━━━━━┩
│ 8MB+ | 0us │ 0us │ 0us │ 0us |
└─────────────┴─────┴─────┴─────┴──────┘
如何將永久磁碟磁碟區新增至 Cloud TPU VM?
詳情請參閱「將永久磁碟新增至 TPU VM」。
使用 TPU VM 訓練模型時,支援或建議使用哪些儲存空間選項?
詳情請參閱 Cloud TPU 儲存空間選項。
JAX 常見問題
如何判斷我的程式是否正在使用 TPU?
如要確認 JAX 是否使用 TPU,有幾種方法:
使用
jax.devices()
函式。例如:assert jax.devices()[0].platform == 'tpu'
分析程式,並確認設定檔包含 TPU 作業。詳情請參閱「剖析 JAX 程式」。
詳情請參閱 JAX 常見問題
PyTorch 常見問題
如何判斷我的程式是否正在使用 TPU?
您可以執行下列 Python 指令:
>>> import torch_xla.core.xla_model as xm
>>> xm.get_xla_supported_devices(devkind="TPU")
並確認是否能看到任何 TPU 裝置。