Opções de consumo do Cloud TPU
Este documento fornece uma descrição das opções de consumo suportadas para Cloud TPU. As opções de consumo são os métodos usados para pedir capacidade. Quando escolher uma opção de consumo, considere os seguintes fatores:
- Com que rapidez precisa da capacidade
- Durante quanto tempo precisa da capacidade
- Se precisa de capacidade durante um período fixo ou flexível
- Se a sua capacidade pode ser antecipada
- Preços
Se estiver a usar APIs Cloud TPU, para cada método de consumo, precisa de uma quota a pedido ou preemptível para o número de núcleos Cloud TPU que quer usar. Existem diferentes quotas predefinidas a pedido e preemptíveis para cada versão da TPU. Para mais informações, consulte o artigo Quotas de Cloud TPU.
Se estiver a usar TPUs com o Google Kubernetes Engine (GKE), usa a quota da API Compute Engine, que é uma quota diferente. Para mais informações acerca das quotas que usa para as UTPs no GKE, consulte o artigo Certifique-se de que tem quota de UTPs.
Opção de consumo | Como funciona | Melhor utilização para | Versões e zonas de TPU suportadas | Tipo de quota para a API Cloud TPU |
---|---|---|---|---|
Reservas futuras de um ano ou mais | Pedir recursos de TPU antecipadamente durante um ano ou mais. Estes recursos estão reservados para sua utilização exclusiva durante esse período. As reservas oferecem o nível de garantia mais elevado para a capacidade e são rentáveis, com um preço inferior ao dos recursos a pedido. As reservas futuras de TPUs têm um desconto de fidelidade (CUD) associado. Os CUDs oferecem preços com desconto em troca da compra de um contrato de fidelização. Para mais informações, consulte o artigo Peça uma reserva futura por um ano ou mais. |
As reservas futuras durante um ano ou mais são ideais para tarefas de preparação de longa duração e cargas de trabalho de inferência. | Todas as versões da TPU: consulte as regiões e as zonas da TPU | Quota a pedido |
Reservas futuras até 90 dias (no modo de calendário) (Pré-visualização) | Pede recursos de TPU para uma hora de início e uma duração específicas, entre 1 e 90 dias. Estes recursos estão reservados para sua utilização exclusiva durante esse período. As reservas oferecem o nível de garantia mais elevado para a capacidade e são rentáveis, com um preço inferior ao dos recursos a pedido. Para mais informações, consulte o artigo Peça uma reserva futura até 90 dias no modo de calendário. |
As reservas futuras no modo de calendário são adequadas para cargas de trabalho de preparação e experimentação que requerem horas de início precisas e têm uma duração definida. | v6e (Trillium) para preparação e publicação: asia-northeast1-b, us-east5-a v5p para formação e publicação: us-east5-a v5e para formação: us-west4-a v5e para publicação: us-central1-a |
Não é necessária quota |
A pedido | Pedir recursos de TPU para usar o mais rapidamente possível durante o tempo que quiser. A opção a pedido oferece a maior flexibilidade. Os recursos a pedido não são preemptivos, mas não existe garantia de que existam recursos de TPU disponíveis suficientes para satisfazer o seu pedido. A pedido é a predefinição quando cria recursos de TPUs. Para mais informações acerca da criação e utilização de TPUs a pedido, consulte Efetue a gestão de recursos de TPUs. |
A opção a pedido é adequada para tarefas urgentes e cargas de trabalho que requerem um horário de conclusão flexível. | Todas as versões da TPU: consulte as regiões e as zonas da TPU | Quota a pedido |
Início flexível (pré-visualização) | Pede recursos de TPU por um período específico, até 7 dias, sem ter de reservar capacidade antecipadamente. Os recursos de início flexível são fornecidos a partir de um conjunto dedicado de capacidade, pelo que a disponibilidade destes recursos é superior à dos recursos a pedido. Para mais informações sobre a utilização do início flexível com TPUs, consulte o artigo Peça Cloud TPUs com início flexível. Para mais informações sobre a utilização do início flexível com o Google Kubernetes Engine (GKE), consulte o artigo Acerca do aprovisionamento de GPUs e TPUs com o modo de aprovisionamento de início flexível. |
O início flexível é ideal para experimentação, testes em pequena escala, aprovisionamento dinâmico de TPUs para cargas de trabalho de inferência, ajuste preciso de modelos e execuções de cargas de trabalho que demoram menos de 7 dias. |
v6e (Trillium): asia-northeast1-b, us-east5-a v5p: us-east5-a v5e: us-west4-a |
Quota preemptível |
Spot | Solicita recursos de TPU que podem ser anulados. As VMs de capacidade instantânea estão disponíveis a um preço muito inferior ao dos recursos a pedido. As VMs de capacidade instantânea podem ser mais fáceis de obter do que os recursos a pedido, mas podem ser anuladas (encerradas) em qualquer altura. Não existe limite para a duração do tempo de execução. Para mais informações sobre as VMs de TPU Spot, consulte o artigo Faça a gestão de VMs de TPU Spot. |
As instâncias Spot são adequadas para agendar cargas de trabalho de prioridade inferior, como pré-treino de modelos, ajuste fino de modelos e tarefas de simulação tolerantes a interrupções de disponibilidade. | Todas as versões da TPU: consulte as regiões e as zonas da TPU | Quota preemptível |
O que se segue?
Comece a usar as TPUs com: