常見問題 - Cloud TPU

這份文件列出了 Cloud TPU 的相關常見問題。這份文件分成幾個部分:

  1. 與架構無關的常見問題 - 關於使用 Cloud TPU 的問題,無論您使用哪種機器學習架構都適用。
  2. JAX 常見問題 - 有關搭配使用 Cloud TPU 和 JAX 的問題。
  3. PyTorch 常見問題 - 關於搭配使用 Cloud TPU 和 PyTorch 的問題。

與架構無關的常見問題

如何檢查 Cloud TPU VM 上有哪些程序正在使用 TPU?

在 Cloud TPU VM 上執行 tpu-info,使用 TPU 列印程序 ID 和其他程序資訊。如需指標及其對應定義,請參閱支援的指標

   tpu-info

tpu-info 的輸出內容會與下列內容相似:

   TPU Chips
   ┏━━━━━━━━━━━━━┳━━━━━━━━━━━━━┳━━━━━━━━━┳━━━━━━━━┓
    Chip         Type         Devices  PID       ┡━━━━━━━━━━━━━╇━━━━━━━━━━━━━╇━━━━━━━━━╇━━━━━━━━┩
    /dev/accel0  TPU v4 chip  1        130007     /dev/accel1  TPU v4 chip  1        130007     /dev/accel2  TPU v4 chip  1        130007     /dev/accel3  TPU v4 chip  1        130007    └─────────────┴─────────────┴─────────┴────────┘

   TPU Runtime Utilization
   ┏━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━┓
    Device  Memory usage          Duty cycle    ┡━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━┩
    0       0.00 GiB / 31.75 GiB       0.00%     1       0.00 GiB / 31.75 GiB       0.00%     2       0.00 GiB / 31.75 GiB       0.00%     3       0.00 GiB / 31.75 GiB       0.00%    └────────┴──────────────────────┴────────────┘

   TensorCore Utilization
   ┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━┓
    Chip ID  TensorCore Utilization    ┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━┩
    0                         0.00%     1                         0.00%     3                         0.00%     2                         0.00% |
   └─────────┴────────────────────────┘

   Buffer Transfer Latency
   ┏━━━━━━━━━━━━━┳━━━━━┳━━━━━┳━━━━━┳━━━━━━┓
    Buffer Size  P50  P90  P95  P999    ┡━━━━━━━━━━━━━╇━━━━━╇━━━━━╇━━━━━╇━━━━━━┩
          8MB+  | 0us  0us  0us   0us |
   └─────────────┴─────┴─────┴─────┴──────┘

如何將永久磁碟磁碟區新增至 Cloud TPU VM?

詳情請參閱「將永久磁碟新增至 TPU VM」。

詳情請參閱 Cloud TPU 儲存空間選項

JAX 常見問題

如何判斷我的程式是否正在使用 TPU?

如要確認 JAX 是否使用 TPU,有幾種方法:

  1. 使用 jax.devices() 函式。例如:

    assert jax.devices()[0].platform == 'tpu'
    
  2. 分析程式,並確認設定檔包含 TPU 作業。詳情請參閱「剖析 JAX 程式」。

詳情請參閱 JAX 常見問題

PyTorch 常見問題

如何判斷我的程式是否正在使用 TPU?

您可以執行下列 Python 指令:

>>> import torch_xla.core.xla_model as xm
>>> xm.get_xla_supported_devices(devkind="TPU")

並確認是否能看到任何 TPU 裝置。