Cloud TPU 錯誤字彙表
本文提供 Cloud TPU 服務常見錯誤的解決方法。
加速器類型無效
錯誤訊息
generic::invalid_argument: Accelerator type v2-512 as preemptible (false) and reserved (false) is not available in zone us-central1-a, please contact support.
解決方案
您為建立指令提供的參數無效。加速器在區域中的可用性取決於下列參數:類型、preemptible
旗標、spot
旗標和 reserved
旗標。如要變更 preemptible
、spot
和 reserved
標記,請在建立指令中加入或排除這些標記。
使用 reserved
標記建立的 TPU 會使用預留容量。加入 spot
或 preemptible
旗標,即可讓優先順序較高的 TPU 先佔 TPU。如果未提供任何這些標記,TPU 會是隨選。啟用多個這類標記並非有效設定。詳情請參閱建立指令說明文件。
如要瞭解各個區域適用的加速器類型,請參閱 TPU 區域和可用區說明文件,或使用 accelerator-types list 指令查詢。將建立指令改為使用其中一種加速器類型,然後再試一次。如果問題持續發生,請與支援團隊聯絡。
找不到網路
錯誤訊息
Cloud TPU received a bad request. The field "Network" cannot be "xxxx": requested resource not found
解決方案
找不到網路「xxxx」。確認已建立並正確設定電視網。詳情請參閱「建立及管理虛擬私有雲網路」。
服務帳戶權限遭拒
錯誤訊息
generic::permission_denied: Cloud TPU got permissions denied when trying to access the customer project. Make sure that the IAM account 'service-[project number]@cloud-tpu.iam.gserviceaccount.com' has the 'Cloud TPU API Service Agent' role by following https://cloud.google.com/iam/docs/manage-access-service-accounts
解決方案
如果使用者嘗試在專案中建立或列出節點,但沒有 IAM 授權,就會發生這個錯誤。這個問題的可能原因,是 Cloud TPU API 服務帳戶沒有專案的必要角色。管理存取帳戶文件簡要說明如何管理存取權。按照「授予或撤銷單一角色」步驟,將「Cloud TPU API 服務代理人」角色授予帳戶「service-PROJECT_NUMBER
@cloud-tpu.iam.gserviceaccount.com」(請務必將 PROJECT_NUMBER
換成您的專案編號,您可以在控制台的專案設定中找到該編號)。 Google Cloud 如要進一步瞭解服務代理,請參閱服務代理說明文件。
超過配額
錯誤訊息
You have reached XXXX limit. Please request an increase for the 'YYYY' quota for Compute Engine API by following https://cloud.google.com/docs/quotas/view-manage#requesting_higher_quota.
解決方案
您的專案已達配額上限。如要進一步瞭解如何使用配額,請參閱 Cloud Quotas 說明文件。請勿與 TPU 配額混淆,後者控管 TPU Pod 的用量。
如要申請提高適當的限制,請按照「申請調整配額」一文中的步驟操作。在配額頁面中,您可以搜尋這則訊息的「YYYY」部分所指定的配額。部分配額會分散在不同區域或服務中。錯誤訊息會指出需要增加哪一項。
訊息中的「XXXX」和「YYYY」部分可能是下列其中一項:
- HEALTH_CHECKS -「健康狀態檢查」配額
- 防火牆 -「防火牆規則」配額
- NETWORK_ENDPOINT_GROUPS - 這個區域的「網路端點群組」配額
- READ_REQUESTS - Compute Engine API 服務的「每分鐘讀取要求數」配額
- OPERATION_READ_REQUESTS -「每分鐘作業讀取要求數」配額
這類要求通常會在 2 到 3 個工作天內處理完畢。如果要求緊急,請與客戶工程師或客戶技術顧問聯絡。