Si el número de solicitudes supera la capacidad asignada para procesarlas, se devuelve el código de error 429
. En la siguiente tabla se muestra el mensaje de error generado por cada tipo de marco de trabajo de cuotas:
Marco de cuotas | Mensaje |
---|---|
Pago por uso | Resource exhausted, please try again later. |
Capacidad de procesamiento reservada | Too many requests. Exceeded the Provisioned Throughput. |
Con una suscripción de rendimiento aprovisionado, puede reservar una cantidad de rendimiento para modelos de IA generativa específicos. Si no tienes una suscripción de rendimiento aprovisionado y los recursos no están disponibles para tu aplicación, se devuelve el código de error 429
. Aunque no tengas capacidad reservada, puedes volver a intentarlo. Sin embargo, la solicitud no se tiene en cuenta en tu tasa de errores, tal como se describe en tu acuerdo de nivel de servicio (ANS).
En el caso de los proyectos que han comprado rendimiento aprovisionado, Vertex AI mide el rendimiento de un proyecto y reserva la cantidad de rendimiento comprada para el uso real del proyecto.
En el caso del throughput aprovisionado estándar, cuando usas menos de la cantidad que has comprado, los errores que de otro modo serían 429
se devuelven como 5XX
y se tienen en cuenta para la tasa de errores del SLA. En el caso del rendimiento aprovisionado de una sola zona, si usas menos de la cantidad que has comprado, los errores 429
relacionados con la capacidad se tratan como 5XX
, pero no se tienen en cuenta para calcular la tasa de errores del SLA. Si superas el importe que has comprado, las solicitudes adicionales se procesarán bajo demanda con la modalidad de pago por uso.
Pago por uso
En el marco de cuotas de pago por uso, tiene las siguientes opciones para resolver los errores 429
:
- Si es posible, usa el endpoint global en lugar de un endpoint regional.
- Implementa una estrategia de reintentos mediante el tiempo de espera exponencial truncado.
- Si tu modelo usa cuotas, puedes enviar una solicitud de aumento de cuota. Si tu modelo usa cuota compartida dinámica, puede ser útil suavizar el tráfico y reducir los picos grandes. Para obtener más información, consulte Cuota compartida dinámica (DSQ).
- Suscríbete al servicio de rendimiento aprovisionado para disfrutar de un nivel de servicio más constante. Para obtener más información, consulta Throughput aprovisionado.
Capacidad de procesamiento reservada
Para corregir el error 429 generado por el rendimiento aprovisionado, haga lo siguiente:
- Usa el ejemplo de comportamiento predeterminado, que no define un encabezado en las solicitudes de predicción. Los excesos se procesan a petición y se facturan con la modalidad de pago por uso.
- Aumenta el número de unidades de almacenamiento de Google en tu suscripción de rendimiento aprovisionado.
Siguientes pasos
- Para obtener más información sobre la cuota compartida dinámica, consulta Cuota compartida dinámica.
- Para obtener más información sobre el rendimiento aprovisionado, consulta Rendimiento aprovisionado.
- Para obtener información sobre las cuotas y los límites de Vertex AI, consulta Cuotas y límites de Vertex AI.
- Para obtener más información sobre las Google Cloud cuotas y los límites del sistema, consulta la documentación de cuotas de Cloud.
- Para obtener más información sobre los errores de la API, consulta Errores de la API.