Cotas

Neste documento, listamos as cotas que se aplicam ao Cloud TPU. Para informações sobre preços do Cloud TPU, consulte Preços do Cloud TPU.

Uma cota restringe quanto de um determinado recurso compartilhado do Google Cloud o projeto do Google Cloud pode usar, incluindo hardware, software e componentes de rede. Dessa forma, as cotas fazem parte de um sistema que:

  • monitora o uso ou o consumo de produtos e serviços do Google Cloud;
  • restringe o consumo desses recursos por motivos, que garantem imparcialidade e reduzem picos de uso;
  • mantém as configurações que aplicam automaticamente restrições prescritas;
  • fornece um meio de solicitar ou faz alterações na cota.

Na maioria dos casos, quando uma cota é excedida, o sistema bloqueia imediatamente o acesso ao recurso relevante do Google. Além disso, a tarefa que você está tentando executar falha. Na maioria dos casos, as cotas se aplicam a todos os projetos do Google Cloud. Além disso, elas são compartilhadas entre todos os aplicativos e endereços IP que usam esse projeto.

Tipos de cota

Se você estiver usando o GKE, consulte Garantir uma cota suficiente para mais informações sobre a cota do GKE. Quando você usa a cota da API Cloud TPU, há cotas separadas para recursos reservados, sob demanda e preemptivos. A tabela a seguir compara cada tipo de cota.

Tipo da cota Descrição Valor padrão Como solicitar Sinalizações para criação de TPU
Reservado O número de recursos do Cloud TPU a que você tem acesso garantido. Você precisa ter um contrato de reserva para acessar recursos reservados. Os recursos reservados são protegidos contra esgotamento, mas estão sujeitos a interrupções. 0 Para solicitar uma cota reservada, entre em contato com o representante da sua conta do Google Cloud. Use a sinalização --reserved.
Sob demanda O número de recursos sob demanda aos quais você tem acesso. Os recursos sob demanda não serão interrompidos, mas a cota sob demanda não garante que haverá recursos suficientes do Cloud TPU disponíveis para atender à sua solicitação. v3-8 e v2-8: 16 TensorCores
Todos os outros: 0
Consulte Solicitar cota adicional. Nenhuma flag é necessária. Selecionada por padrão.
Preemptiva O número de recursos preemptivos do Cloud TPU a que você tem acesso. Os recursos preemptivos podem ser interrompidos para liberar espaço para jobs de prioridade mais alta. A cota preemptiva não garante que haverá recursos suficientes do Cloud TPU disponíveis para atender à sua solicitação. Para mais informações, consulte TPUs preemptivas. v3-8 e v2-8: 48 TensorCores
Todos os outros: 0
Consulte Solicitar cota adicional. Use as sinalizações --preemptible ou --best-effort para uma solicitação de recurso em fila.

Alocação de cotas

A cota do Cloud TPU é concedida de maneira diferente com base na versão das TPUs que você está usando.

TPU v4 e v5p

Para a TPU v4 e v5p, a cota pode ser especificada em termos de chips de TPU ou TensorCores. Você pode usar sua cota em qualquer combinação de frações. Por exemplo, se você tiver cota para uma fração da v4-32, poderá usá-la para criar quatro frações v4-8.

TPU v5e (treinamento e inferência)

A v5e é compatível com treinamento e inferência. As frações da v5e usadas para inferência incluem TPUs com tipos de aceleradores v5litepod-1, v5litepod-4 ou v5litepod-8. É preciso usar a cota de tpu-v5s-litepod-serving para o Cloud TPU sob demanda, tpu-v5s-litepod-serving-preemptible para o Cloud TPU preemptiva e tpu-v5s-litepod-serving-reserved para o Cloud TPU reservado.

TPU v2 e v3

A cota de TPU v2 e v3 é especificada em termos de TensorCores. Um único dispositivo TPU contém quatro chips de TPU e oito TensorCores (dois TensorCores por chip). As TPUs v2 e v3 têm cotas separadas para dispositivos de TPU únicos e pods de TPU. Não é possível usar a cota de pod de TPU v2 ou v3 para TPUs v2-8 ou v3-8. Por exemplo, se você tiver cota para uma fração v3-32, não poderá usá-la para criar quatro TPUs v3-8.

Para mais informações sobre chips de TPU e TensorCores, consulte Arquitetura do sistema de TPU.

Ver e solicitar cota adicional

É possível ver a cota alocada para seu projeto do Google Cloud na página "Cotas" do console do Google Cloud. Se precisar de mais cota do Cloud TPU, será possível solicitá-la na página "Cotas". Para mais informações, consulte Solicitar um limite de cota maior.