Cloud TPU 错误术语表

本文档提供了 Cloud TPU 服务的常见错误及其解决方案的术语表。


加速器类型无效

错误消息

generic::invalid_argument: Accelerator type v2-512 as preemptible (false) and
reserved (false) is not available in zone us-central1-a, please contact support.

解决方案

向 create 命令提供了无效参数。加速器在某个可用区中的可用性取决于以下参数:类型、preemptible 标志、spot 标志和 reserved 标志。您可以通过在 create 命令中添加或排除 preemptiblespotreserved 标志来更改这些标志。

使用 reserved 标记创建的 TPU 将使用预留的容量。添加 spotpreemptible 标志后,此 TPU 会被优先级更高的 TPU 抢占。如果未提供这些标志,则 TPU 将是按需 TPU。它不是启用多个上述标志的有效配置。如需了解详情,请参阅 create 命令文档

您可以在 TPU 区域和可用区文档中找到每个可用区中可用的加速器类型,也可以使用 accelerator-types list 命令查询这些加速器类型。请更改 create 命令以使用其中一种加速器类型,然后重试;如果问题仍然存在,请与支持团队联系。

找不到网络

错误消息

  Cloud TPU received a bad request. The field "Network" cannot be "xxxx":
  requested resource not found

解决方案

找不到网络 xxxx。确保已正确创建并设置该网络。如需了解详情,请参阅创建和管理 VPC 网络

服务账号权限遭拒

错误消息

  generic::permission_denied: Cloud TPU got permissions denied when trying to
  access the customer project. Make sure that the IAM account
  'service-[project number]@cloud-tpu.iam.gserviceaccount.com' has the 'Cloud
  TPU API Service Agent' role by following https://cloud.google.com/iam/docs/manage-access-service-accounts

解决方案

如果用户尝试在未经 IAM 授权的情况下在项目中创建或列出节点,则会发生此错误。此问题可能的原因是 Cloud TPU API 服务账号没有该项目所需的角色。管理访问账号文档简要介绍了如何管理访问权限。按照授予或撤消单个角色中的步骤操作,并为账号“service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com”授予“Cloud TPU API Service Agent”角色(请务必将 PROJECT_NUMBER 替换为您的项目编号,可在 Google Cloud 控制台的项目设置中找到)。如需详细了解服务代理,请参阅服务代理文档

超出配额

错误消息

You have reached XXXX limit. Please request an increase for the 'YYYY' quota for
Compute Engine API by following https://cloud.google.com/docs/quotas/view-manage#requesting_higher_quota.

解决方案

您的项目已达到配额限制。如需详细了解如何使用配额,请参阅 Cloud 配额文档。这不应与用于管理 TPU Pod 用量的 TPU 配额混淆。

您可以按照申请更高配额中列出的步骤,申请提高相应的限制。在配额页面上,您可以搜索此消息中“YYYY”部分指定的配额。某些配额会在不同区域或服务之间拆分。错误消息会指明需要提高哪个配额。

消息的“XXXX”和“YYYY”部分可以是以下任一项:

  • HEALTH_CHECKS -“健康检查”配额
  • FIREWALLS -“防火墙规则”配额
  • NETWORK_ENDPOINT_GROUPS -此区域的“网络端点组”配额
  • READ_REQUESTS -Compute Engine API 服务的“每分钟读取请求数”配额
  • OPERATION_READ_REQUESTS -“每分钟操作读取请求数”配额

我们通常会在 2-3 个工作日内处理此类请求。如果请求紧急,请与客户工程师或技术支持客户经理联系。