Glossário de erros do Cloud TPU
Este documento apresenta um glossário de erros comuns com soluções do serviço Cloud TPU.
Tipo de acelerador inválido
Mensagem de erro
generic::invalid_argument: Accelerator type v2-512 as preemptible (false) and reserved (false) is not available in zone us-central1-a, please contact support.
Solução
Um parâmetro inválido foi fornecido ao comando de criação. A disponibilidade
de um acelerador em uma zona depende dos seguintes parâmetros: o tipo, a
flag preemptible
, a flag spot
e a flag reserved
. As solicitações preemptible
, spot
,
e reserved
podem ser alteradas ao incluí-las ou excluí-las no comando
kubectl.
Uma TPU criada com a flag reserved
vai usar
de armazenamento. A inclusão das flags spot
ou preemptible
permite que a TPU seja interrompida por
TPUs de prioridade mais alta. Se nenhuma dessas sinalizações for fornecida, a TPU será sob demanda. Não é
uma configuração válida ativar mais de uma dessas flags. Consulte a
documentação do comando "create" para mais informações.
Os tipos de acelerador disponíveis em cada zona podem ser encontrados na documentação de regiões e zonas de TPU ou podem ser consultados usando o comando "accelerator-types list". Altere o comando de criação para usar um deste tipo de acelerador e tente novamente ou entre em contato com o suporte se o problema persistir.
Rede não encontrada
Mensagem de erro
Cloud TPU received a bad request. The field "Network" cannot be "xxxx": requested resource not found
Solução
A rede xxxx não foi encontrada. Verifique se a rede foi criada e configurada corretamente. Consulte Criar e gerenciar redes VPC para mais informações.
Permissão da conta de serviço negada
Mensagem de erro
generic::permission_denied: Cloud TPU got permissions denied when trying to access the customer project. Make sure that the IAM account 'service-[project number]@cloud-tpu.iam.gserviceaccount.com' has the 'Cloud TPU API Service Agent' role by following https://cloud.google.com/iam/docs/manage-access-service-accounts
Solução
Esse erro ocorre quando um usuário tenta criar ou listar nós em um projeto
sem autorização do IAM. Uma causa provável desse problema é que o serviço da API Cloud TPU
não tem o papel necessário para o projeto. A documentação para gerenciar contas de acesso.
fornece uma visão geral de como gerenciar o acesso. Siga as etapas Conceder ou revogar um único papel
e atribua à conta "service-PROJECT_NUMBER
@cloud-tpu.iam.gserviceaccount.com" o papel de "Agente de serviço da API Cloud TPU". Substitua PROJECT_NUMBER
pelo número do seu projeto, que pode ser encontrado nas configurações do projeto no console do Google Cloud. Para mais
informações sobre agentes de serviço, consulte a documentação dos agentes de serviço.
Cota excedida
Mensagem de erro
You have reached XXXX limit. Please request an increase for the 'YYYY' quota for Compute Engine API by following https://cloud.google.com/docs/quotas/view-manage#requesting_higher_quota.
Solução
Seu projeto atingiu o limite de cota. Para saber mais sobre como trabalhar com cotas, consulte a documentação de cotas do Cloud. Não confunda isso com a cota de TPU, que controla o uso desses pods.
É possível solicitar um aumento do limite apropriado seguindo as etapas listadas em Solicitar uma cota maior. Na página de cotas, pesquise a cota especificada pelo valor "AAAA" nesta mensagem. Algumas cotas são divididas entre diferentes regiões ou serviços. A mensagem de erro vai indicar qual deles precisa ser aumentado.
O "XXXX" e "AAAA" da mensagem pode ser uma das seguintes:
- HEALTH_CHECKS – 'Verificações de integridade' cota
- FIREWALLS - "Regras de firewall" cota
- NETWORK_ENDPOINT_GROUPS: cota de "Grupos de endpoints de rede" para esta região
- READ_REQUESTS – 'Solicitações de leitura por minuto' cota para o serviço da API Compute Engine
- OPERATION_READ_REQUESTS: cota de "Solicitações de leitura de operação por minuto".
Geralmente, essa solicitação é processada em dois a três dias úteis. Se a solicitação for urgente, entre em contato com um engenheiro de clientes ou um gerente técnico de contas.