Esta versão legada do AI Platform Prediction está descontinuada e não estará mais disponível no Google Cloud após 31 de janeiro de 2025. Todos os modelos, metadados associados e implantações serão excluídos após 31 de janeiro de 2025. Migre seus recursos para a Vertex AI a fim de acessar novos recursos de machine learning que estão indisponíveis no AI Platform.

Política de cotas

O AI Platform Prediction limita a alocação e o uso de recursos e aplica cotas apropriadas por projeto. As políticas específicas variam de acordo com a disponibilidade do recurso, o perfil do usuário, o histórico de uso do serviço e de outros fatores e estão sujeitas a alterações sem aviso prévio.

Veja nas seções abaixo a descrição dos limites de cota atuais do sistema.

Limites de solicitações de serviço

É possível fazer apenas um número limitado de solicitações de API individuais a cada intervalo de 60 segundos. Cada limite se aplica a uma determinada API ou a um grupo de APIs, conforme descrito nas seções a seguir.

É possível ver as cotas de solicitação do projeto no Gerenciador de APIs para o AI Platform Prediction, no console do Google Cloud. Para solicitar um aumento de cota, clique no ícone de edição ao lado do limite de cota e, em seguida, selecione Inscrever-se para uma cota maior.

Solicitações de job

Os limites a seguir se aplicam às solicitações projects.jobs.create (combinação de jobs de treinamento e de previsão em lotes):

Período	Limite
60 segundos	60

Solicitações de previsão on-line

Os seguintes limites se aplicam às solicitações de projects.predict:

Período	Limite
60 segundos	600.000

Solicitações de gerenciamento de recursos

Os seguintes limites se aplicam ao total combinado de todas as solicitações compatíveis nesta lista:

Solicitações list para projects.jobs, projects.models, projects.models.versions e projects.operations.
Solicitações get para projects.jobs, projects.models, projects.models.versions e projects.operations.
Solicitações delete para projects.models e projects.models.versions.
Solicitações create para projects.models e projects.models.versions
Solicitações cancel para projects.jobs e projects.operations
solicitações para projects.models.versions.setDefault.

Período	Limite
60 segundos	300

Além disso, todas as solicitações delete listadas acima e as solicitações create de versões são limitadas a um total de 10 solicitações combinadas simultâneas.

Cotas de recursos

Além dos limites de solicitações ao longo do tempo, há um limite no uso de recursos, mostrado na lista a seguir:

Número máximo de modelos: 100.
Número máximo de versões: 200. O limite de versões aplica-se ao número total de versões no seu projeto, que pode ser distribuído entre os modelos ativos como você preferir.

Limites de tamanho do modelo

Ao criar uma versão do modelo, o tamanho total do arquivo do diretório do modelo precisa ser 500 MB ou menos se você usar um tipo de máquina legada (MLS1) ou 2 GB ou menos se você usar um tipo de máquina (N1) do Compute Engine. Saiba mais sobre tipos de máquinas para previsão on-line.

Não é possível solicitar um aumento para esses limites de tamanho do modelo.

Limites do uso simultâneo de máquinas virtuais

O uso dos recursos de processamento do Google Cloud feito pelo seu projeto é calculado pelo número de máquinas virtuais que ele usa. Nesta seção, descrevemos os limites para o uso simultâneo desses recursos em todo o projeto.

Limites de nós simultâneos na previsão em lote

Ao usar o AI Platform Prediction pela primeira vez, um projeto típico tem uma restrição no número de nós simultâneos usados para previsão em lote:

Número de nós de previsão simultâneos: 72

Uso de nós na previsão on-line

O AI Platform Prediction não aplica cotas ao uso de nós para previsão on-line. Veja mais sobre nós de previsão e alocação de recursos.

Limites do uso simultâneo de vCPU na previsão on-line

Um projeto típico, no primeiro uso do AI Platform Prediction, é limitado ao seguinte número de vCPUs simultâneas em cada endpoint regional ao usar os tipos de máquina N1 do Compute Engine. Endpoints regionais diferentes podem ter cotas diferentes, e as cotas do seu projeto podem mudar com o tempo.

Número total de vCPUs simultâneas em cada endpoint regional:

us-central1: 450
us-east1: 450
us-east4: 20
us-west1: 450
northamerica-northeast1: 20
europe-west1: 450
europe-west2: 20
europe-west3: 20
europe-west4: 450
asia-east1: 450
asia-northeast1: 20
asia-southeast1: 450
australia-southeast1: 20

Existem cotas padrão, e é possível solicitar cotas maiores.

Limites do uso simultâneo de GPUs na previsão on-line

Um projeto típico, no primeiro uso do AI Platform Prediction, é limitado ao seguinte número de GPUs simultâneas em cada endpoint regional. Endpoints regionais diferentes podem ter cotas diferentes, e as cotas do seu projeto podem mudar com o tempo.

Número total de GPUs simultâneas: é o número máximo de GPUs em uso simultâneo, dividido por tipo e endpoint regional, da seguinte maneira:

Número simultâneo de GPUs NVIDIA K80:
- us-central1: 30
- us-east1: 30
- europe-west1: 30
- asia-east1: 30
Número simultâneo de GPUs NVIDIA P4:
- us-central1: 2
- us-east4: 2
- northamerica-northeast1: 2
- europe-west4: 2
- asia-southeast1: 2
- australia-southeast1: 2
Número simultâneo de GPUs NVIDIA P100:
- us-central1: 30
- us-east1: 30
- us-west1: 30
- europe-west1: 30
- asia-southeast1: 30
Número simultâneo de GPUs NVIDIA T4:
- us-central1: 6
- us-east1: 6
- us-west1: 6
- europe-west2: 2
- europe-west4: 6
- asia-northeast1: 2
- asia-southeast1: 6
Número simultâneo de GPUs NVIDIA V100:
- us-central1: 2
- us-west1: 2
- europe-west4: 2

Existem cotas padrão, e é possível solicitar cotas maiores.

As GPUs que você usa para previsão não são contabilizadas como GPUs para o Compute Engine, e a cota para o AI Platform Prediction não concede acesso a nenhuma VM do Compute Engine que utilize GPUs. Para ativar uma VM do Compute Engine que usa GPU, solicite a cota de GPU do Compute Engine conforme descrito na documentação do Compute Engine.

Para mais informações, veja como usar as GPUs para previsão on-line.

Como solicitar um aumento de cota

As cotas listadas nesta página são alocadas por projeto e podem aumentar com o uso ao longo do tempo. Se você precisa de mais capacidade de processamento, é possível solicitar um aumento de cota usando um destes métodos:

Use o console do Google Cloud para solicitar aumentos de cotas listadas no Gerenciador de APIs para o AI Platform Prediction:
1. Encontre a seção da cota que você quer aumentar.
2. Clique no ícone de lápis ao lado do valor da cota, na parte inferior do gráfico de uso dela.
3. Insira o aumento solicitado:
  - Se o valor de cota desejado estiver dentro do intervalo exibido na caixa de diálogo de limite de cota, insira o novo valor e clique em Salvar.
  - Se você quiser aumentar a cota além do máximo exibido, clique em Inscrever-se para uma cota maior e siga as instruções para a segunda maneira de solicitar o aumento.
Se você quiser aumentar uma cota que não está listada no console do Google Cloud, como cotas de GPU, use o formulário de solicitação de cota do AI Platform para solicitar um aumento da cota. Essas solicitações são tratadas com base no melhor esforço, ou seja, não há contratos de nível de serviço (SLAs) ou objetivos de nível de serviço (SLOs) envolvidos na análise dessas solicitações.

Política de cotas

Limites de solicitações de serviço

Solicitações de job

Solicitações de previsão on-line

Solicitações de gerenciamento de recursos

Cotas de recursos

Limites de tamanho do modelo

Limites do uso simultâneo de máquinas virtuais

Limites de nós simultâneos na previsão em lote

Uso de nós na previsão on-line

Limites do uso simultâneo de vCPU na previsão on-line

Limites do uso simultâneo de GPUs na previsão on-line

Como solicitar um aumento de cota

A seguir