Cuota compartida dinámica

En esta página, se explica la cuota compartida dinámica (DSQ) y en qué se diferencia de la capacidad de procesamiento aprovisionada. También se presenta un ejemplo para explicar cómo funciona DSQ.

DSQ distribuye la capacidad disponible a pedido entre todas las consultas que procesan los servicios de Google Cloud para modelos específicos. Esta función elimina la necesidad de establecer límites de cuota y de enviar solicitudes de aumento de cuota (QIR).

DSQ procesa las solicitudes que realizan los proyectos en un grupo de regiones. Se quitan las cuotas y se distribuye la capacidad disponible a cada proyecto. El DSQ ayuda a garantizar que se proporcione un servicio continuo a proyectos grandes y pequeños.

Con el sistema de cuotas de Cloud existente, la reasignación se realiza cada minuto, lo que significa que podrías agotar tu cuota de ese minuto en los primeros 10 segundos y, luego, tu proyecto no podrá hacer nada durante los 50 segundos restantes hasta que se vuelva a habilitar la cuota. Con DSQ, se vuelve a evaluar tu distribución de capacidad cada segundo. Si hay capacidad disponible, es posible que tu proyecto procese más tráfico (consultas). Si el tráfico supera la cuota establecida con el sistema de cuotas de Cloud, el exceso se reduce (se rechaza).

La capacidad de procesamiento aprovisionada es la única forma de garantizar la alta disponibilidad para tu aplicación y obtener niveles de servicio predecibles para tus cargas de trabajo de producción. Para obtener más información sobre la capacidad de procesamiento aprovisionada, consulta Capacidad de procesamiento aprovisionada.

Modelos compatibles

En esta sección, se enumeran los modelos que admiten la cuota compartida dinámica (DSQ), que está habilitada de forma predeterminada en estos modelos.

El DSQ se procesa como pago por uso. Si superas la capacidad asignada, se genera un error 429. Para obtener más información sobre cómo solucionar el error, consulta Código de error 429.

Modelos de Google

En la siguiente tabla, se enumeran los modelos (y las versiones) de Google que admiten DSQ:

Modelo Fecha de lanzamiento de DSQ Estado
Gemini 1.5 Flash (gemini-1.5-flash-002) 24 de septiembre de 2024 En vivo
Gemini 1.5 Pro (gemini-1.5-pro-002) 24 de septiembre de 2024 En vivo

Modelos de socios

En la siguiente tabla, se enumeran los modelos de Claude que admiten DSQ. Para obtener más información sobre los modelos de Claude, consulta Usa los modelos de Claude de Anthropic.

Cómo funciona la cuota compartida dinámica

En esta sección, se explican los términos fundamentales que son clave para comprender el funcionamiento de la cuota compartida dinámica (DSQ), seguidos de una analogía y ejemplos.

Límite, cuota y capacidad

Los conceptos de límite, cuota y capacidad son diferentes. Por ejemplo, la cuota no es lo mismo que la capacidad.

Un límite es un importe máximo que se establece para restringir la cantidad de solicitudes que un proyecto puede realizar en un modelo. Ese valor no se puede cambiar. Google protege sus sistemas con límites.

Una cuota es un límite que Google también impone para restringir la cantidad de solicitudes que los proyectos realizan en modelos específicos, pero se puede cambiar. Si bien una cuota especifica la cantidad de solicitudes que se pueden realizar a un modelo, las cuotas no garantizan que la capacidad se asigne a ese proyecto. Las cuotas se crearon con el objetivo de proteger al sistema de la sobrecarga y el uso inadecuado de los servicios de Google Cloud.

La capacidad es la cantidad de recursos disponibles para tu proyecto para procesar tus solicitudes. La capacidad está limitada por tu cuota, pero esta no garantiza que la capacidad esté disponible.

La asignación de capacidad para DSQ se realiza a nivel del proyecto.

Cómo funcionan la cuota y la capacidad en DSQ

La analogía del río y la taza explica claramente cómo funcionan la cuota y la capacidad en DSQ.

Imagina que tu comunidad vive junto a un río y que cada persona de tu comunidad recibe un vaso de 12 onzas para tomar agua de ese río. El río está lleno de agua, pero la taza de cada persona solo puede contener 350 ml de agua.

Mientras el río tenga suficiente agua, cada persona puede volver a llenar su vaso según sus necesidades hasta el límite de 12 onzas. Sin embargo, si ese río comienza a secarse, cada persona debe recibir una cantidad menor, por ejemplo, dos o cuatro onzas de agua.

La cantidad que contiene el río es la capacidad. La cantidad que puede contener la taza es la cuota.

Cada persona solo ve lo que hay en sus tazas y no el río. Puedes ver tu cuota (también conocida como límites de consulta) en la página Cuotas y límites del sistema de la consola de Google Cloud.

Con DSQ, tienes un vaso mágico que contiene agua ilimitada (capacidad), ya que las cuotas ya no existen. El DSQ no depende de la capacidad de tu taza, sino que se enfoca en la distribución del agua del río según la cantidad de tazas y la capacidad necesaria de cada taza que debe compartir esa capacidad.

Ejemplo de cómo funciona DSQ

En este ejemplo, la tabla muestra cuatro proyectos con una capacidad total de 100 QPS. Las columnas de la tabla incluyen la siguiente información:

  • Demanda actual: Indica la cantidad que cada proyecto desea usar. La demanda actual es superior a la capacidad total. En este ejemplo, 317 QPS (demanda actual) en comparación con 100 QPS (capacidad total para todos los proyectos).

  • Asignación proporcional de la cuota actual: Es el resultado de dividir la capacidad por el recuento de solicitudes. El proyecto A obtiene la cuota más alta, ya que es el proyecto que más solicitó, lo que hace que otros proyectos no obtengan suficiente cuota.

  • Asignación de DSQ: Es la capacidad que se asigna a los proyectos.

Proyecto A Proyecto B Proyecto C Proyecto D
Demanda actual 250 32 25 10
Asignación proporcional actual 79 10 8 3
Asignación de DSQ 33 32 25 10

En estos pasos, se muestra cómo calcular la asignación de DSQ:

  1. Cada proyecto recibe su parte de una cuota. En este caso, 25 QPS.

  2. El proyecto D solo usa 10 QPS de sus 25 QPS. Por lo tanto, se redistribuye la capacidad adicional de 15 QPS.

  3. El proyecto C obtiene suficiente cuota para seguir recibiendo 25 QPS.

  4. Los proyectos A y B siguen necesitando más cuota. Por lo tanto, la cuota adicional del proyecto D (15 QPS) se divide y se distribuye por igual a los proyectos A y B (7.5 QPS cada uno).

  5. El proyecto B recibe 7.5 QPS del proyecto D para alcanzar 32.5 QPS, y el proyecto A se limita a una cantidad de 32.5 QPS. El proyecto A recibe un error 429 para las solicitudes que superan la capacidad asignada.

Ejemplo de capacidad en una región específica

Google Cloud analiza la capacidad disponible en una región específica, como Norteamérica, y, luego, analiza cuántos proyectos envían solicitudes.

Considera el proyecto A, que envía 25 consultas por minuto (QPM), y el proyecto B, que envía 25 QPM. El servicio puede admitir 100 QPM. Si el proyecto A aumenta la frecuencia de sus consultas a 75 QPM, la DSQ admite el aumento. Si el proyecto A aumenta la tasa de sus consultas a 100 QPM, la DSQ disminuye el proyecto A a 75 QPM para seguir publicando el proyecto B a 25 QPM.

Consideraciones

Antes de tomar la decisión de comprar un modelo que admita DSQ, revisa las siguientes consideraciones:

Consideración Solución
Controla los costos y evita los excesos presupuestarios. Configura una cuota autoimpuesta llamada anulación de cuota del consumidor. Para obtener más información, consulta Crea una anulación de cuota del consumidor.
Prioriza el tráfico. Usa la capacidad de procesamiento aprovisionada.
Supervisa tu uso. Consulta las siguientes métricas:
  • publisher/online_serving/token_count
  • publisher/online_serving/tokens
Para obtener más información, consulta la sección aiplatform en la documentación de Cloud Monitoring.

Supervisa el uso de QPS

Para supervisar tu uso de QPS de Gemini, consulta la página Cuotas y límites del sistema.

Cómo solucionar problemas de DSQ

Cuando se agote la capacidad compartida por región, es posible que tu consulta reciba un error 429. Para solucionar los errores que puedan ocurrir, consulta Código de error 429.

¿Qué sigue?