Neste documento, listamos as cotas e limites que se aplicam ao Compute Engine.
Uma cota restringe quanto de um determinado recurso compartilhado do Google Cloud o projeto do Cloud pode usar, incluindo hardware, software e componentes de rede.
As cotas fazem parte de um sistema que:
- monitora o uso ou o consumo de produtos e serviços do Google Cloud;
- restringe o consumo desses recursos por motivos que incluem garantir a equidade e a redução dos picos de uso;
- mantém as configurações que aplicam automaticamente restrições prescritas;
- fornece maneiras de fazer ou solicitar alterações na cota.
Quando uma cota é excedida, na maioria dos casos, o sistema bloqueia imediatamente o acesso ao respectivo recurso do Google, e a tarefa que você está tentando executar falha. Na maioria dos casos, as cotas se aplicam a todos os projetos do Cloud. Além disso, elas são compartilhadas entre todos os aplicativos e endereços IP que usam esse projeto.
O Compute Engine aplica cotas no uso de recursos por vários motivos. Por exemplo, as cotas ajudam a proteger a comunidade de usuários do Google Cloud, impedindo picos de uso inesperados. O Google Cloud também oferece cotas de teste gratuito que proporcionam acesso limitado a projetos para ajudar você a explorar o Google Cloud gratuitamente.
Nem todos os projetos têm as mesmas cotas. Conforme você usa o Google Cloud ao longo do tempo, suas cotas podem aumentar proporcionalmente. Caso espere um aumento de uso significativo, solicite o ajuste das cotas na página Cotas no Console do Google Cloud.
Para informações específicas sobre cotas de limites de taxa da API Compute Engine, consulte Limites de taxa de API.
Permissões para verificar e editar a cota
Para visualizar as cotas, você precisa ter a
permissão
serviceusage.quotas.get
.
Para alterar as cotas, você precisa ter a
permissão
serviceusage.quotas.update
.
Por padrão, elas estão incluídas nos papéis básicos do IAM "Proprietário" e "Editor", assim como no papel predefinido "Administrador de cotas".
Verificar sua cota
As cotas regionais não são um subconjunto de cotas do projeto. As instâncias de máquina virtual (VM) fazem parte das cotas regionais.
Se você estiver procurando cotas regionais, como a quantidade de VMs que podem ser criadas em uma região, consulte Como verificar cotas de região. Para verificar sua cota de projeto, use o Console do Google Cloud ou a Google Cloud CLI.
Para informações sobre categorias de cota, consulte Noções básicas sobre cotas.
Verificar cota regional
Console
No Console do Google Cloud, acesse a página Cotas.
gcloud
Listar cotas em uma região:
gcloud compute regions describe REGION
Substitua REGION
pelo nome da região
de que você quer uma lista de informações de cota.
Verificar cota do projeto
Console
No Console do Google Cloud, acesse a página Cotas.
gcloud
Verificar as cotas de todo o projeto:
gcloud compute project-info describe --project PROJECT_ID
Substitua PROJECT_ID
pela ID do seu projeto.
Solicitar um aumento de cota
Não há cobrança para solicitar um aumento de cota. Os custos aumentam apenas se você usar mais recursos.
Solicitações para redução de cota serão recusadas por padrão. Caso seja preciso reduzir sua cota, responda ao e-mail de suporte com uma explicação dos seus requisitos. Um representante de suporte da equipe do Compute Engine responderá sua solicitação no prazo de 24 a 48 horas.
Planeje e solicite recursos adicionais com pelo menos alguns dias de antecedência para garantir que haja tempo suficiente para atender seu pedido.
Para instruções detalhadas sobre como aumentar a cota no Console do Google Cloud, consulte Como solicitar um limite de cota maior.
Cotas e disponibilidade de recursos
As cotas de recursos são o número máximo de recursos de um tipo específico que você criará, se eles estiverem disponíveis. As cotas não garantem
que os recursos estejam sempre disponíveis. Se um recurso não estiver disponível,
ou se a região escolhida estiver fora do recurso, não será possível
criar novos recursos desse tipo, mesmo que ainda haja cota restante na região ou
no projeto. Por exemplo, você ainda pode ter uma cota para criar endereços IP externos em us-central1
, mas talvez não haja endereços IP disponíveis nessa região.
Do mesmo modo, mesmo que você tenha cota regional, é possível que um recurso não esteja disponível
em uma zona específica. Por exemplo, você tem cota para criar instâncias de VM
na região us-central1
, mas talvez não consiga criar instâncias de VM na
zona us-central1-a
se ela estiver esgotada. Nesse caso, tente criar
o mesmo recurso em outra zona, como us-central1-f
. Para saber mais sobre as opções se os recursos zonais estiverem esgotados, consulte a documentação para
resolver problemas de disponibilidade de recursos.
Cotas de recursos
Ao planejar a utilização das instâncias de VM, considere várias cotas que afetam o número de instâncias que podem ser criadas.
Cotas regionais e globais
As cotas de VM são gerenciadas no nível regional. A instância de VM, o grupo de instâncias,
as cotas de disco e a CPU podem ser consumidos por qualquer VM na região, independentemente da
zona. Por exemplo, a cota da CPU é regional. Sendo assim, o limite e a contagem de uso
são diferentes para cada região. Para iniciar uma instância de n2-standard-16
em qualquer
zona na região us-central1
, você precisa de cota suficiente para pelo menos 16 CPUs
em us-central1
.
São necessárias cotas de rede e balanceamento de carga para a criação de firewalls, balanceadores de carga, redes e VPNs. Essas cotas são globais e não dependem de região. Qualquer região pode usar uma cota global. Por exemplo, os endereços IP externos em uso e estáticos atribuídos a balanceadores de carga e proxies HTTP(S) consomem cotas globais.
Instâncias de VM
A cota de instâncias de VM é uma cota regional que limita o número de instâncias de VM que podem existir em uma determinada região, esteja a VM em execução ou não. Essa cota pode ser visualizada na página Cotas do Console do Google Cloud. O Compute Engine define automaticamente essa cota como dez vezes a cota de CPU normal. Não é necessário solicitar essa cota. Caso você precise de cota para mais instâncias de VM, solicite mais CPUs, porque com mais CPUs a cota de instâncias de VM será maior. A cota se aplica a VMs em execução ou não e a instâncias normais e preemptivas.
No Console do Google Cloud, acesse a página Cotas.
Clique em
Filtrar tabela e selecione Serviço.Escolha API Compute Engine.
Escolha Nome do limite: instâncias de VM.
Para ver uma lista de cotas da instância de VM por região, clique em Todas as cotas. Suas cotas de região estarão listadas do maior para o menor uso.
Clique na caixa de seleção da região da cota que você quer alterar.
Clique em
Editar cotas.Preencha o formulário.
Clique em Enviar solicitação.
Grupos de instâncias
Para usar grupos de instâncias, é preciso ter uma cota disponível para todos os recursos usados pelo grupo (por exemplo, cota de CPU) e cotas disponíveis para o próprio recurso do grupo. Dependendo do tipo de grupo criado, aplicam-se as cotas de recurso de grupo a seguir:
Tipo de serviço | Cota de serviço |
---|---|
Grupo regional de instâncias gerenciadas (várias zonas) | Regional instance group managers |
Grupo por zona de instâncias gerenciadas (única zona) | Ambos:
|
Grupo de instâncias não gerenciadas (única zona) | Instance groups |
Escalonador automático regional (várias zonas) | Regional autoscalers |
Escalonador automático de zona (única zona) | Autoscalers |
Cotas de disco
As cotas de disco permanente e SSD local a seguir aplicam-se por região:
Local SSD (GB)
é a cota que representa o tamanho total combinado das partições de disco SSD local que podem ser anexadas às VMs em uma região. O SSD local é um disco temporário rápido que pode ser usado como disco de trabalho e para cache local ou processamento de jobs com alta tolerância a falhas. O disco não tem resistência a reinicializações de instâncias de VM. As partições de SSD local são vendidas em incrementos de 375 GB. É possível anexar até 24 partições de SSD local a uma única VM. Na CLI gcloud e na API, essa cota é chamada deLOCAL_SSD_TOTAL_GB
.Persistent disk standard (GB)
é a cota que representa o tamanho total dos discos permanentes padrão que podem ser criados em uma região. Conforme descrito em Como otimizar o desempenho de discos permanentes e SSDs locais, os discos permanentes padrão oferecem menor IOPS e capacidade do que os discos permanentes SSD ou SSDs locais. São econômicos quando usados como grandes discos duráveis para armazenamento, como discos de inicialização, e para processos de gravação em série, como registros. Os discos permanentes padrão são duráveis e estão disponíveis indefinidamente para serem anexados a uma VM na mesma zona. Na CLI gcloud e na API, essa cota é chamada deDISKS_TOTAL_GB
. Essa cota também se aplica aos discos permanentes padrão regionais. No entanto, discos regionais consomem o dobro da cota por GB, devido à replicação em duas zonas de uma região.Persistent disk SSD (GB)
é a cota que representa o tamanho total combinado das partições de Disco permanente SSD que podem ser criadas em uma região. Os discos permanentes SSD têm diversas réplicas e, conforme descrito em Desempenho de armazenamento em blocos, oferecem maior IOPS e capacidade do que discos permanentes padrão. Os discos permanentes SSD estão disponíveis indefinidamente para serem anexados a uma VM na mesma zona. Na CLI gcloud e na API, essa cota é chamada deSSD_TOTAL_GB
. Esta cota é separada do SSD local. Essa cota se aplica aos tipos de discos listados abaixo Discos permanentes regionais consomem o dobro da cota por GB devido à replicação em duas zonas de uma região:- Disco permanente SSD regional e por zona.
- Disco permanente equilibrado regional e por zona.
Cota de CPU
A cota de CPU é o número total de CPUs virtuais em todas as suas instâncias de VM em uma região. As cotas de CPU se aplicam a VMs em execução e reservas de VM. As VMs preemptivas e predefinidas consomem essa cota.
Para proteger os usuários e sistemas do Compute Engine, novas
contas e projetos têm, também, uma cota CPUs (All Regions)
global que
se aplicará a todas as regiões e é medida como a soma de todas as vCPUs em todas as
regiões.
Por exemplo, se você tiver 48 vCPUs restantes em uma única região como
us-central1
, mas apenas 32 vCPUs restantes para a cota de CPUs (All Regions)
,
só é possível iniciar 32 vCPUs na região us-central1
, mesmo que haja
uma cota maior nessa região. Isso ocorre porque você alcançará a
cota de CPU (All Regions)
e terá que excluir as instâncias existentes antes de
iniciar novas instâncias.
Os tipos de máquina E2 e N1 compartilham um pool de cotas de CPU. Os tipos de máquina N2, N2D, M1, M2 e C2 têm pools de cotas de CPU exclusivos e separados.
Se você estiver usando descontos por compromisso de uso para suas VMs, precisará ter cota para esse tipo de benefício antes de comprar um contrato de uso.
Tipo de máquina | Pool de cotas | Nome da cota de CPU | Nome da cota de CPU de uso contínuo |
---|---|---|---|
E2, N1 | Pool compartilhado | CPUS |
Committed_CPUS |
N2 | Pool separado | N2_CPUS |
Committed_N2_CPUS |
N2D | Pool separado | N2D_CPUS |
Committed_N2D_CPUS |
T2D | Pool separado | T2D_CPUS |
Committed_T2D_CPUS |
T2A (Pré-lançamento). | Pool separado | T2A_CPUS |
Não disponível (N/D) para Committed_T2A_CPUS |
M1 | Pool separado | M1_CPUS |
Committed_MEMORY-OPTIMIZED_CPUS |
M2 | Pool separado | M2_CPUS |
Committed_MEMORY-OPTIMIZED_CPUS |
C2 | Pool separado | C2_CPUS |
Committed_C2_CPUS |
C2D | Pool separado | C2D_CPUS |
Committed_C2D_CPUS |
A2 | Pool separado | A2_CPUS |
Committed_A2_CPUS |
VMs preemptivas | Pool compartilhado | PREEMPTIBLE_CPUS |
Não disponível (N/A) para VMs preemptivas |
Cota de GPU
Assim como acontece com a cota de CPU virtual, a cota de GPU refere-se ao número total de GPUs virtuais em todas as instâncias de VM em uma região. As cotas de GPU se aplicam a VMs em execução e reservas de VM. As VMs preemptivas e predefinidas consomem essa cota.
Verifique a página Cotas para garantir que você tenha GPUs suficientes disponíveis no projeto e para solicitar um aumento de cota. Além disso, novos projetos e contas têm uma cota global de GPU que se aplica a todas as regiões.
Quando você solicita uma cota de GPU, é necessário pedir uma cota para os modelos de GPU que você quer criar em cada região e outra cota global para o número total de GPUs de todos os tipos em todas as zonas. Solicite a cota de GPU preemptiva para usar esses recursos.
NVIDIA | Nome da cota de GPU | Nome da cota de GPU de uso contínuo | Estação de trabalho virtual | GPUs preemptivas | Estação de trabalho virtual da GPU preemptiva |
---|---|---|---|---|---|
A100 40GB | NVIDIA_A100_GPUS |
COMMITTED_NVIDIA_A100_GPUS |
N/A | PREEMPTIBLE_NVIDIA_A100_GPUS |
N/A |
A100 80GB (pré-lançamento) | NVIDIA_A100_80GB_GPUS |
COMMITTED_NVIDIA_A100_80GB_GPUS |
N/A | PREEMPTIBLE_NVIDIA_A100_80GB_GPUS |
N/A |
T4 | NVIDIA_T4_GPUS |
COMMITTED_NVIDIA_T4_GPUS |
NVIDIA_T4_VWS_GPUS |
PREEMPTIBLE_NVIDIA_T4_GPUS |
PREEMPTIBLE_NVIDIA_T4_VWS_GPUS |
V100 | NVIDIA_V100_GPUS |
COMMITTED_NVIDIA_V100_GPUS |
N/A | PREEMPTIBLE_NVIDIA_V100_GPUS |
N/A |
P100 | NVIDIA_P100_GPUS |
COMMITTED_NVIDIA_P100_GPUS |
NVIDIA_P100_VWS_GPUS |
PREEMPTIBLE_NVIDIA_P100_GPUS |
PREEMPTIBLE_NVIDIA_P100_VWS_GPUS |
P4 | NVIDIA_P4_GPUS |
COMMITTED_NVIDIA_P4_GPUS |
NVIDIA_P4_VWS_GPUS |
PREEMPTIBLE_NVIDIA_P4_GPUS |
PREEMPTIBLE_NVIDIA_P4_VWS_GPUS |
K80 | NVIDIA_K80_GPUS |
COMMITTED_NVIDIA_K80_GPUS |
N/A | PREEMPTIBLE_NVIDIA_K80_GPUS |
N/A |
Cotas para recursos preemptivos
Para usar CPUs e GPUs preemptivas ou SSDs locais anexados a instâncias de VM preemptivas, é necessário ter cotas disponíveis no projeto para o respectivo recurso.
É possível solicitar cotas preemptíveis especiais para
Preemptible CPUs
, Preemptible GPUs
ou Preemptible Local SSDs (GB)
.
No entanto, se o projeto não tiver uma cota preemptiva e você nunca tiver
solicitado a cota preemptiva, será possível consumir a cota padrão para iniciar
recursos preemptivos.
Assim que essa cota for concedida para uma região no Compute Engine, todas as instâncias preemptivas são deduzidas dessa cota automaticamente. À medida que essa cota esgotar, é necessário solicitar uma cota preemptiva para esses recursos.
Endereços IP externos
Cada VM que precisar ser acessada diretamente pela Internet pública precisará de endereços IP externos suficientes. A cota de IP regional é usada para atribuir endereços IPv4 a VMs na região. A cota de IP global é usada para atribuir endereços IPv4 a recursos de rede global, como balanceadores de carga. O Google Cloud oferece diferentes tipos de endereços IP, dependendo das suas necessidades. Para mais informações sobre os custos, acesse Preços do endereço IP externo. Consulte Cotas e limites para ver informações sobre esse assunto.
Endereços IP externos em uso. Inclui endereços IP estáticos e temporários que estão sendo usados no momento por um recurso.
Endereços IP externos estáticos: são endereços IP externos reservados para os recursos que resistem a reinicializações da máquina. É possível registrar esses endereços com serviços de DNS e provedor de domínio para fornecer um endereço fácil de usar. Por exemplo, www.example-site.com.
Endereços IP internos estáticos: permitem reservar endereços IP internos do intervalo de IP interno configurado na sub-rede. É possível atribuir esses endereços internos reservados a recursos conforme necessário.
Limitações de taxa de API
As limitações de taxa de API (também conhecidas como cotas da API) definem o número de solicitações que podem ser feitas para a API Compute Engine. Os limites de taxa são aplicados por projeto. Cada limite de taxa corresponde a todas as solicitações de um grupo de um ou mais métodos da API Compute Engine.
Ao usar gcloud compute
ou o console do Google Cloud, você também está fazendo solicitações à API. Essas solicitações são contabilizadas nas limitações de taxa de API. Se você usar as contas de serviço para acessar a API, isso também será contabilizado na limitação de taxa.
Os limites de taxa de API são aplicados e recarregados automaticamente em intervalos de 60 segundos (1 minuto). Isso significa que,
se o projeto atingir o limite máximo de taxa a qualquer momento em 60 segundos,
será necessário esperar que essa cota seja recarregada antes de fazer mais solicitações nesse grupo.
Se o projeto exceder um limite de taxa, você receberá um erro 403
com o motivo rateLimitExceeded
. Para resolver esse erro, aguarde um minuto e
tente sua solicitação novamente. A cota precisa ser restaurada novamente no início do
próximo intervalo.
Atualmente, as solicitações são limitadas utilizando os grupos a seguir. Cada grupo é contado separadamente. Dessa maneira, você atinge o limite máximo em cada grupo simultaneamente.
Os seguintes grupos de limite de taxa se aplicam a todos os recursos, a menos que especificado de outra forma:
Limitar grupo | Descrição | Limite padrão |
---|---|---|
Consultas |
|
Taxa por projeto (defaultPerMinutePerProject ): 1.500 solicitações/minuto |
Solicitações de leitura |
|
Taxa por projeto (ReadRequestsPerMinutePerProject ): 1.500 solicitações/minuto |
Solicitações de lista |
|
Taxa por projeto (ListRequestsPerMinutePerProject ): 1.500 solicitações/minuto |
Solicitações de leitura de operação |
|
Taxa por projeto (OperationReadRequestsPerMinutePerProject ): 1.500 solicitações/minuto |
Solicitações globais de mutação de recursos |
|
Taxa por projeto (GlobalResourceWriteRequestsPerMinutePerProject ): 375 solicitações/minuto |
Solicitações de mutação pesadas |
|
Taxa por projeto (HeavyWeightWriteRequestsPerMinutePerProject ): 750 solicitações/minuto |
Solicitações de leitura pesadas |
|
Taxa por projeto (HeavyWeightReadRequestsPerMinutePerProject ): 750 solicitações/minuto |
Os seguintes grupos de limite de taxa se aplicam a APIs com limites por método:
Limitar grupo | Descrição | Limite padrão |
---|---|---|
A instância simula solicitações de eventos de manutenção |
|
Taxa por projeto (SimulateMaintenanceEventRequestsPerDayPerProject ): 150 solicitações/minuto |
Solicitações do referenciador da lista de instâncias |
|
Taxa por projeto (InstanceListReferrersRequestsPerMinutePerProject ): 3.000 solicitações/minuto |
Solicitações de saída da porta serial para a instância |
|
Taxa por projeto (GetSerialPortOutputRequestsPerMinutePerProject ):
máximo de 1.500 solicitações/minuto |
Solicitações de inserção de licença |
|
|
Solicitações de metadados de instâncias comuns do projeto |
|
Taxa por projeto (ProjectSetCommonInstanceMetadataRequestsPerMinutePerProject ):
36 solicitações/minuto |
Recomendar solicitações de localização |
|
Taxa por projeto (RecommendLocationsRequestsPerMinutePerProject ):
20 solicitações/minuto |
Solicitações de gravação do endpoint da rede |
|
Taxa por projeto (NetworkEndpointWriteRequestsPerMinutePerProject ): 1.500 solicitações/minuto |
Solicitações da lista de endpoints de rede |
|
Taxa por projeto (NetworkEndpointListRequestsPerMinutePerProject ): 1.500 solicitações/minuto |
Siga as práticas recomendadas da API Compute Engine para preservar os limites de taxa da API para reduzir os efeitos das limitações de taxa da API.
Se você precisar de uma limitação de taxa mais alta para as solicitações de API, analise o uso atual e solicite um aumento na cota da API. Para instruções sobre como aumentar a cota no console do Google Cloud, consulte Como solicitar um limite de cota maior.
Limites de operação simultânea
Os limites de operação simultânea definem o número de operações em trânsito ou simultâneas em qualquer momento. Qualquer solicitação de API que crie, modifique ou exclua um recurso do Compute Engine está sujeita a uma verificação de limite de operação simultânea para ver se uma nova operação pode ser criada naquele momento.
Se o projeto exceder o limite de operações simultâneas para qualquer operação em trânsito, você receberá um erro 403
com o motivo rateLimitExceeded
s
Limites e grupos de operações
Nesta seção, descrevemos os limites de várias operações em andamento ou em tempo real do Compute Engine.
Operações e limites globais
As operações globais simultâneas consomem um limite global especificado para um projeto. A tabela a seguir lista os limites globais para operações em trânsito:
Operação | Descrição | Limite |
---|---|---|
Todos os métodos globais | Limita o número total de operações globais simultâneas de um projeto. | 8.000 operações em trânsito por projeto |
routes.insert | Limita o número de criações de rotas simultâneas em um projeto. | 200 criações de rotas em trânsito por projeto |
routes.delete (em inglês) | Limita o número de operações de exclusão de rota simultâneas em um projeto. | 400 operações de rota de exclusão em trânsito por projeto |
firewalls.insert | Limita o número de criações de firewall simultâneas em um projeto. | 400 operações de criação de firewall em andamento por projets |
firewalls.delete (link em inglês) | Limita o número de exclusões simultâneas de firewall em um projeto. | 400 operações de firewall de exclusão em trânsito por projeto |
snapshots.insert (link em inglês) | Limita o número de criações de snapshots simultâneos em um projeto. | 8.000 operações de criação de snapshot em andamento por projeto |
snapshots.delete (link em inglês) | Limita o número de exclusões simultâneas de snapshot em um projeto. | 4.000 operações de exclusão de snapshot em andamento por projeto |
Limites de operação regional e zonal
Os limites a seguir se aplicam às operações especificadas para um projeto em uma região e as zonas dele:
Operação | Descrição | Limite |
---|---|---|
Todos os métodos regionais | Limita o número total de operações simultâneas para um projeto em uma região e as zonas dele. | 8.000 operações em trânsito por projeto e por região. |
Instânces.INSERT | Limita o número de operações de criação de instância simultâneas para um projeto em uma região. | 1.200 operações de inserção de instância em trânsito por projeto por região |
instances.delete | Limita o número de operações de exclusão de instâncias simultâneas para um projeto em uma região. | 1.200 operações de exclusão de instâncias em trânsito por projeto por região |
instances.bulkInsert | Limita o número de criações em massa simultâneas de instâncias para um projeto em uma região. | 20 operações de inserção em massa de instâncias em trânsito por projeto e regiãs |
disks.insert | Limita o número de criações de disco simultâneas para um projeto em uma região. | 1.500 operações de criação de discos em trânsito por projeto e região |
Práticas recomendadas
A lista de verificação a seguir resume as práticas recomendadas para reduzir erros de limite de operações simultâneas insuficientes:
- Aguardar operações serem concluídas
- Conte com códigos de erro, não mensagens de erro
- Minimize novas tentativas do lado do cliente para preservar os limites da taxa de API
A seguir
- Saiba mais sobre preços baseados em recursos.
- Leia sobre os preços das instâncias de VM.