Esta versión heredada de AI Platform Prediction está obsoleta y ya no estará disponible en Google Cloud después del 31 de enero de 2025. Todos los modelos, los metadatos asociados y las implementaciones se borrarán después del 31 de enero de 2025. Migra tus recursos a Vertex AI para obtener funciones de aprendizaje automático nuevas que no están disponibles en AI Platform.

Política de cuotas

AI Platform Prediction limita el uso y la asignación de recursos, y aplica las cuotas correspondientes a cada proyecto. Las políticas específicas varían según la disponibilidad de los recursos, el perfil del usuario, el historial de uso del servicio y otros factores, y están sujetas a cambios sin previo aviso.

En las siguientes secciones, se describen los límites de cuota actuales del sistema.

Límites de las solicitudes de servicio

Solo se puede realizar una cantidad limitada de solicitudes a la API individuales por intervalo de 60 segundos. Cada límite se aplica a una API o grupo de API específico, según se describe en las siguientes secciones.

Para ver las cuotas de solicitud de tu proyecto, consulta el Administrador de API para AI Platform Prediction en la consola de Google Cloud. Si deseas solicitar una cuota superior, haz clic en el ícono de edición que aparece junto al límite de cuota y selecciona Solicitar una cuota mayor.

Solicitudes de trabajos

Se aplican los siguientes límites a las solicitudes projects.jobs.create (se combinan los trabajos de entrenamiento y predicción por lotes):

Período	Límite
60 segundos	60

Solicitudes de predicción en línea

Se aplican los siguientes límites a las solicitudes projects.predict:

Período	Límite
60 segundos	600,000

Solicitudes de administración de recursos

Se aplican los siguientes límites al total combinado de las solicitudes compatibles de esta lista:

Solicitudes list para projects.jobs, projects.models, projects.models.versions y projects.operations
Solicitudes get para projects.jobs, projects.models, projects.models.versions y projects.operations
Solicitudes delete para projects.models y projects.models.versions
Solicitudes create para projects.models y projects.models.versions
Solicitudes cancel para projects.jobs y projects.operations
Solicitudes para projects.models.versions.setDefault.

Período	Límite
60 segundos	300

Además, todas las solicitudes delete mencionadas y todas las solicitudes create de versiones están limitadas a un total combinado de 10 solicitudes simultáneas.

Cuotas de recursos

Además de los límites que se aplican a las solicitudes en el tiempo, se limita el uso de recursos, como se muestra en la siguiente lista:

Cantidad máxima de modelos: El límite es de 100.
Cantidad máxima de versiones: El límite es de 200. El límite de versiones corresponde al total de versiones que haya en el proyecto, que puedes distribuir entre los modelos activos como prefieras.

Límites de tamaño del modelo

Cuando creas una versión del modelo, el tamaño total del archivo de directorio de tu modelo debe ser de hasta 500 MB si usas un tipo de máquina heredada (MLS1) o de hasta 10 GB si utilizas un tipo de máquina de Compute Engine (N1). Obtén más información sobre tipos de máquinas para las predicciones en línea.

No puedes solicitar un aumento para estos límites de tamaño de modelo.

Límites en el uso simultáneo de máquinas virtuales

El uso de los recursos de procesamiento de Google Cloud en tus proyectos se mide según la cantidad de máquinas virtuales que utilizan. En esta sección, se describen los límites del uso simultáneo de esos recursos en el proyecto.

Límites de nodos simultáneos para la predicción por lotes

Un proyecto típico de un usuario que recién comienza a usar AI Platform Prediction se encuentra limitado en cuanto a la cantidad de nodos simultáneos que se usan para la predicción por lotes:

Cantidad de nodos de predicción simultáneos: 72

Uso de nodos para la predicción en línea

AI Platform Prediction no aplica cuotas al uso de nodos para las predicciones en línea. Obtén más información sobre la asignación de nodos y recursos para las predicciones.

Límites en el uso simultáneo de CPU virtuales para las predicciones en línea

Un proyecto típico de un usuario que recién comienza a usar AI Platform Prediction se limita a la siguiente cantidad de CPU virtuales simultáneas en cada extremo regional cuando usas tipos de máquinas (N1) de Compute Engine. Diferentes extremos regionales pueden tener cuotas diferentes y las cuotas de tu proyecto pueden cambiar con el tiempo.

Cantidad total de CPU virtuales simultáneas en cada extremo regional:

us-central1: 450
us-east1: 450
us-east4: 20
us-west1: 450
northamerica-northeast1: 20
europe-west1: 450
europe-west2: 20
europe-west3: 20
europe-west4: 450
asia-east1: 450
asia-northeast1: 20
asia-southeast1: 450
australia-southeast1: 20

Estas son las cuotas predeterminadas y puedes solicitar un aumento de cuota.

Límites en el uso simultáneo de GPU para las predicciones en línea

Un proyecto típico de un usuario que recién comienza a usar AI Platform Prediction se limita a la siguiente cantidad de GPU simultáneas en cada extremo regional. Diferentes extremos regionales pueden tener cuotas diferentes y las cuotas de tu proyecto pueden cambiar con el tiempo.

Cantidad total de GPU simultáneas: es la cantidad máxima de GPU en uso simultáneamente, desglosada por tipo y extremo regional de la siguiente manera:

Cantidad de GPU Tesla K80 simultáneas:
- us-central1: 30
- us-east1: 30
- europe-west1: 30
- asia-east1: 30
Cantidad de GPU Tesla P4 simultáneas:
- us-central1: 2
- us-east4: 2
- northamerica-northeast1: 2
- europe-west4: 2
- asia-southeast1: 2
- australia-southeast1: 2
Cantidad de GPU Tesla P100 simultáneas:
- us-central1: 30
- us-east1: 30
- us-west1: 30
- europe-west1: 30
- asia-southeast1: 30
Cantidad de GPU Tesla T4 simultáneas:
- us-central1: 6
- us-east1: 6
- us-west1: 6
- europe-west2: 2
- europe-west4: 6
- asia-northeast1: 2
- asia-southeast1: 6
Cantidad de GPU Tesla V100 simultáneas:
- us-central1: 2
- us-west1: 2
- europe-west4: 2

Estas son las cuotas predeterminadas y puedes solicitar un aumento de cuota.

Las GPU que usas para las predicciones no se cuentan como tales en Compute Engine. Además, la cuota de AI Platform Prediction no te da acceso a ninguna VM de Compute Engine que use GPU. Si quieres iniciar una VM de Compute Engine que use una GPU, deberás solicitar una cuota de GPU de Compute Engine, como se describe en la documentación de Compute Engine.

Si deseas obtener más información, consulta cómo usar las GPU para predicciones en línea.

Solicita un aumento de cuota

Las cuotas que se indican en esta página se asignan por proyecto y pueden aumentar con el uso a medida que pase el tiempo. Si necesitas más capacidad de procesamiento, puedes solicitar un aumento de cuota de una de las siguientes maneras:

Usa la consola de Google Cloud para solicitar aumentos de las cuotas que se indican en el Administrador de API para AI Platform Prediction:
1. Busca la sección de la cuota que quieres aumentar.
2. Haz clic en el ícono de lápiz que aparece junto al valor de la cuota, en la parte inferior del gráfico de uso de esa cuota.
3. Ingresa el aumento que quieres solicitar:
  - Si el valor de la cuota que deseas se encuentra dentro del rango que figura en el cuadro de diálogo de límite de cuota, escribe el nuevo valor y haz clic en Guardar.
  - Si quieres aumentar la cuota más allá del valor máximo que se muestra, haz clic en Solicitar una cuota mayor y sigue las instrucciones del segundo método para solicitar un aumento.
Si deseas aumentar una cuota que no aparece en la consola de Google Cloud, como las cuotas de GPU, usa el formulario de solicitud de cuota de AI Platform para solicitar el aumento de una cuota. Estas solicitudes se abordan en función del mejor esfuerzo, lo que significa que ni los Acuerdos de Nivel de Servicio (ANS) ni los objetivos de nivel de servicio (SLO) se involucran en la revisión de estas solicitudes.

Política de cuotas

Límites de las solicitudes de servicio

Solicitudes de trabajos

Solicitudes de predicción en línea

Solicitudes de administración de recursos

Cuotas de recursos

Límites de tamaño del modelo

Límites en el uso simultáneo de máquinas virtuales

Límites de nodos simultáneos para la predicción por lotes

Uso de nodos para la predicción en línea

Límites en el uso simultáneo de CPU virtuales para las predicciones en línea

Límites en el uso simultáneo de GPU para las predicciones en línea

Solicita un aumento de cuota

¿Qué sigue?