Si la cantidad de solicitudes supera la capacidad asignada para procesar solicitudes, se muestra el código de error 429
. En la siguiente tabla, se muestra el mensaje de error que genera cada tipo de framework de cuota:
Marco de trabajo de cuotas | Mensaje |
---|---|
Pago por uso | Resource exhausted, please try again later. |
Capacidad de procesamiento aprovisionada | Too many requests. Exceeded the Provisioned Throughput. |
Con una suscripción de capacidad de procesamiento aprovisionada, puedes reservar una cantidad de capacidad de procesamiento para modelos de IA generativa específicos. Si no tienes una suscripción a la capacidad de procesamiento aprovisionada y los recursos no están disponibles para tu aplicación, se muestra un código de error 429
. Aunque no tengas capacidad reservada, puedes volver a enviar la solicitud. Sin embargo, la solicitud no se toma en cuenta en la tasa de error, como se describe en el Acuerdo de Nivel de Servicio (ANS).
En el caso de los proyectos que compraron el rendimiento aprovisionado, Vertex AI mide el rendimiento de un proyecto y reserva la cantidad de rendimiento comprada para el uso real del proyecto.
En el caso del rendimiento aprovisionado estándar, cuando usas menos del importe que compraste, los errores que, de otro modo, se mostrarían como 429
se muestran como 5XX
y se registran como parte del porcentaje de errores del ANS. En el caso de la capacidad de procesamiento aprovisionada de una sola zona, cuando usas menos de la cantidad que compraste, los errores 429
relacionados con la capacidad se tratan como 5XX
, pero no se incluyen en el porcentaje de errores del ANS. Cuando superas la cantidad que compraste, las solicitudes adicionales se procesan a pedido como pago por uso.
Pago por uso
En el framework de cuota de prepago, tienes las siguientes opciones para resolver los errores 429
:
- Siempre que sea posible, usa el extremo global en lugar de un extremo regional.
- Implementa una estrategia de reintento con la retirada exponencial truncada.
- Si tu modelo usa cuotas, puedes enviar una solicitud de aumento de cuota (QIR). Si tu modelo usa la cuota compartida dinámica, puede ser útil suavizar el tráfico y reducir los picos grandes. Para obtener más información, consulta Cuota compartida dinámica (DSQ).
- Suscríbete a la capacidad de procesamiento aprovisionada para obtener un nivel de servicio más coherente. Para obtener más información, consulta Capacidad de procesamiento aprovisionada.
Capacidad de procesamiento aprovisionada
Para corregir el error 429 que genera la capacidad de procesamiento aprovisionada, haz lo siguiente:
- Usa el ejemplo de comportamiento predeterminado, que no establece un encabezado en las solicitudes de predicción. Cualquier excedente se procesa a pedido y se factura como pago por uso.
- Aumenta la cantidad de GSU en tu suscripción a la capacidad de procesamiento aprovisionada.
¿Qué sigue?
- Para obtener más información sobre la cuota compartida dinámica, consulta Cuota compartida dinámica.
- Para obtener más información sobre la capacidad de procesamiento aprovisionada, consulta Capacidad de procesamiento aprovisionada.
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de Cloud Quotas.
- Para obtener más información sobre los errores de la API, consulta Errores de la API.