La capacidad de procesamiento aprovisionada es un servicio semanal o mediante suscripción mensual con costo fijo que reserva capacidad de procesamiento para los modelos de IA generativa compatibles en Vertex AI. Para reservar tu capacidad de procesamiento, debes especificar el modelo y las ubicaciones disponibles en las que se ejecuta.
En esta página, se explica cuándo usar la capacidad de procesamiento aprovisionada, cómo funciona y cómo suscribirse.
Modelos compatibles
En las siguientes tablas, se muestran los modelos que admiten la capacidad de procesamiento aprovisionada, la capacidad de procesamiento para cada unidad de escala de IA generativa (GSU) y las tasas de consumo para cada modelo.
Modelos de Google
En esta tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de Google que admiten la capacidad de procesamiento aprovisionada. Los modelos de Google se miden en caracteres por segundo, que se definen como la entrada de tu instrucción y los caracteres de salida de texto generados en todas las solicitudes por segundo.
Modelo | Capacidad de procesamiento por GSU (caracteres/s) | Incremento mínimo de compra de GSU | Tasas de consumo | |
---|---|---|---|---|
Gemini 1.5 Flash | Ventana de contexto menor o igual que 128,000: 54,000 Ventana de contexto mayor que 128,000: 27,000 |
1 | Ventana de contexto menor o igual que 128,000: 1 carácter de entrada = 1 carácter 1 carácter de salida = 4 caracteres 1 imagen = 1,067 caracteres 1 video por segundo = 1,067 caracteres 1 audio por segundo = 107 caracteres |
Ventana de contexto mayor que 128,000: 1 carácter de entrada = 2 caracteres 1 carácter de salida = 8 caracteres 1 imagen = 2,134 caracteres 1 video por segundo = 2,134 caracteres 1 audio por segundo = 214 caracteres |
Gemini 1.5 Pro | 800 | 1 | Ventana de contexto menor o igual que 128,000: 1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres 1 imagen = 1,052 caracteres 1 video por segundo = 1,052 caracteres 1 audio por segundo = 100 caracteres |
Ventana de contexto mayor que 128,000: 1 carácter de entrada = 2 caracteres 1 carácter de salida = 6 caracteres 1 imagen = 2,104 caracteres 1 video por segundo = 2,104 caracteres 1 audio por segundo = 200 caracteres |
Gemini 1.0 Pro | 8,000 | 1 | 1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres 1 imagen = 20,000 caracteres 1 video por segundo = 16,000 caracteres |
|
Imagen 3 | 0.025 La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s. |
1 | Solo las imágenes de salida se consideran en tu cuota de rendimiento aprovisionado. | |
Imagen 3 rápida | 0.05 La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s. |
1 | Solo las imágenes de salida se consideran en tu cuota de rendimiento aprovisionado. | |
Imagen 2 | 0.05 La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s. |
1 | Solo las imágenes de salida se consideran en tu cuota de rendimiento aprovisionado. | |
Edición de la imagen 2 | 0.05 La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s. |
1 | Solo las imágenes de salida se consideran en tu cuota de rendimiento aprovisionado. | |
MedLM medio | 2,000 | 1 | 1 carácter de entrada = 1 carácter 1 carácter de salida = 2 caracteres |
|
MedLM grande | 200 | 1 | 1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres |
|
MedLM large 1.5 | 200 | 1 | 1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres |
Para obtener más información sobre las ubicaciones compatibles, consulta Ubicaciones disponibles.
Puedes actualizar a modelos nuevos a medida que estén disponibles. Para obtener información sobre la disponibilidad de los modelos y las fechas de baja, consulta Modelos de Google.
Funciones de versión preliminar
Las funciones de versión preliminar de la capacidad de procesamiento aprovisionada requieren aprobación de acceso. Para solicitar acceso, completa y envía el formulario de control de acceso de rendimiento aprovisionado.
La versión preliminar proporciona lo siguiente para los modelos de Google:
La capacidad de procesamiento aprovisionada se puede aplicar a los modelos base y a las versiones supervisadas y ajustadas de esos modelos base.
Los extremos de modelos ajustados supervisados y su modelo de base correspondiente se registran en la misma cuota de rendimiento aprovisionado.
Por ejemplo, el rendimiento reservado que se compra para
gemini-1.5-pro-002
en un proyecto específico prioriza las solicitudes que se realizan desde versiones supervisadas y optimizadas degemini-1.5-pro-002
creadas en ese proyecto. Usa el encabezado apropiado para controlar el comportamiento del tráfico.El rendimiento aprovisionado se puede comprar por un período de una semana en lugar de una suscripción mensual, con la opción de proporcionar una fecha de inicio dentro de las dos semanas posteriores a la realización del pedido.
Modelos heredados de Google
Consulta Modelos heredados que admiten la capacidad de procesamiento aprovisionada.
Modelos de socios
En esta tabla, se muestran las tasas de rendimiento, incremento de compras y consumo para los modelos de socios que admiten la capacidad de procesamiento aprovisionada. Los modelos de Claude se miden en tokens por segundo, que se define como un total de tokens de entrada y salida en todas las solicitudes por segundo.
Modelo | Capacidad de procesamiento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Tasas de consumo |
---|---|---|---|---|
Anthropic Claude 3.5 Sonnet v2 | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Anthropic Claude 3.5 Haiku | 2,000 | 10 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Claude 3 Opus de Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Anthropic Claude 3 Haiku | 4,200 | 5 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Anthropic Claude 3.5 Sonnet | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Anthropic Claude 3 Sonnet | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Para obtener más información sobre las ubicaciones compatibles, consulta Ubicaciones disponibles.
Cuándo usar la capacidad de procesamiento aprovisionada
Si se cumple alguna de las siguientes consideraciones en tu caso de uso, considera usar la capacidad de procesamiento aprovisionada:
- Tus cargas de trabajo críticas requieren constantemente una alta capacidad de procesamiento. La medición de la capacidad de procesamiento depende del modelo.
- Estás compilando aplicaciones de producción de IA generativa en tiempo real, como chatbots y agentes.
- Tu capacidad de procesamiento debe superar los 20,000 caracteres por segundo.
- Deseas proporcionar una experiencia coherente y predecible a los usuarios de tus aplicaciones.
- Quieres costos deterministas de IA generativa pagando un precio mensual fijo con control de los excesos.
- Quieres costos deterministas de IA generativa pagando un precio fijo mensual o semanal con control de los excesos.
La capacidad de procesamiento aprovisionada es una de las dos formas de procesar la compra de consumible de tus modelos de IA generativa. La segunda forma es el pago por uso, que también se conoce como a pedido.
Cómo se mide la capacidad de procesamiento aprovisionada
En esta sección, se explican los conceptos de unidad de escala de IA generativa (GSU) y tasas de consumo. La capacidad de procesamiento aprovisionada se calcula y se le asigna un precio con las GSU y las tasas de consumo.
Una unidad de escalamiento de IA generativa (GSU) es una medida de la capacidad de procesamiento de tus instrucciones y respuestas. Este importe especifica la cantidad de rendimiento con la que se aprovisiona un modelo.
Para producir una unidad estándar en los modelos, todas las entradas y salidas se convierten en caracteres de entrada por segundo (capacidad de procesamiento) mediante proporciones específicas del modelo llamadas tasas de consumo.
Los diferentes modelos usan diferentes cantidades de capacidades de procesamiento. Para obtener información sobre el importe mínimo de compra de GSU y los incrementos para cada modelo, consulta Modelos compatibles y tasas de consumo en este documento.
Esta ecuación muestra cómo se calcula la capacidad de procesamiento:
inputs_per_query = inputs_across_modalities_converted_using_burndown_rates
outputs_per_query = outputs_across_modalities_converted_using_burndown_rates
throughput_per_second = (inputs_per_query + outputs_per_query) * queries_per_second
La capacidad de procesamiento calculada por segundo determina cuántas GSU necesitas para tu caso de uso.
Ejemplo de cómo estimar tus necesidades de capacidad de procesamiento aprovisionada
Para estimar tus necesidades de capacidad de procesamiento aprovisionada, usa la herramienta de estimación en la consola de Google Cloud. En el siguiente ejemplo, se ilustra el proceso de estimación de la cantidad de rendimiento aprovisionado para tu modelo. La región no se considera en los cálculos de estimación.
Recopila tus requisitos.
En este ejemplo, tu requisito es asegurarte de poder enviar 2,000 caracteres con 2 imágenes y recibir 300 caracteres de salida para 10 consultas por segundo con
gemini-1.5-flash
.Este paso significa que comprendes tu caso de uso, ya que identificaste el tamaño de tus entradas y salidas, la cantidad de consultas por segundo (QPS) y tu modelo.
Para estimar tu capacidad de procesamiento, especifica tu modelo. En este ejemplo, tu modelo es
gemini-1.5-flash
.Especifica el tipo de entrada y, luego, identifica la tasa de consumo. Usa la tabla de tasas de consumo para identificar la tasa de consumo según el tipo de entrada.
La tasa de consumo de una imagen para el modelo
gemini-1.5-flash
es de 1,067 caracteres.
Calcula tu capacidad de procesamiento.
Multiplica la cantidad de imágenes por la tasa de consumo del tipo de entrada de tu modelo específico.
2 imágenes × 1,067 caracteres de entrada por imagen = 2,134 caracteres de entrada
El total de caracteres de salida es de 300. Regresa a la tabla de tasas de consumo y busca la tasa de consumo de caracteres de salida (cuatro caracteres por carácter de salida) para tu modelo específico (
gemini-1.5-flash
).300 caracteres de salida * 4 caracteres por carácter de salida = 1,200 caracteres de entrada convertidos
Suma los totales.
2,000 caracteres de entrada + 2,134 caracteres de entrada convertidos para las imágenes + 1,200 caracteres de entrada convertidos para la salida = 5,334 caracteres de entrada convertidos por consulta
Multiplica los caracteres por consulta por las consultas por segundo esperadas para obtener la capacidad de procesamiento total por segundo.
5,334 caracteres de entrada convertidos por consulta × 10 QPS = 53,340 caracteres de entrada convertidos en total por segundo
Calcula tus GSU.
Las GSU son la capacidad de procesamiento total por segundo dividida por la capacidad de procesamiento por GSU de la tabla de consumo.
53,340 caracteres de entrada convertidos en total por segundo ÷ 54,000 de capacidad de procesamiento por GSU = 0.988 GSU
El incremento mínimo de compra de GSU para
gemini-1.5-flash
es de 1, que cumple con tu requisito.
Qué debes tener en cuenta antes de suscribirte
Para ayudarte a decidir si deseas suscribirte a la capacidad de procesamiento aprovisionada, revisa esta lista de detalles sobre la suscripción:
No puedes cancelar tu pedido.
Tu compra de rendimiento reservado es un compromiso, lo que significa que no puedes cancelar el pedido. Sin embargo, puedes aumentar la cantidad de GSUs que compraste. Si compras un compromiso por accidente o hay un problema con la configuración, comunícate con tu representante de cuenta de Google Cloud para obtener ayuda.
Puedes renovar automáticamente la suscripción.
Cuando envíes tu pedido, podrás elegir renovar automáticamente la suscripción al final de su período de vigencia o dejar que la suscripción venza. Puedes cancelar el proceso de renovación automática. Para cancelar tu suscripción antes de que se renueve automáticamente, cancela la renovación automática 30 días antes del inicio del siguiente período de vigencia.
Puedes configurar las suscripciones mensuales para que se renueven automáticamente todos los meses. Las condiciones semanales no admiten la renovación automática.
Si necesitas ayuda con este proceso, comunícate con tu representante de cuenta de Google Cloud.
Puedes cambiar la versión o región del modelo con previo aviso.
La capacidad de procesamiento aprovisionada se habilita después de que elijas tu proyecto, región, modelo y versión. Puedes cambiar la versión de tu modelo dentro del mismo publicador o región con un aviso de 10 días hábiles. Para obtener ayuda, comunícate con tu representante de cuenta de Google Cloud. Por ejemplo, puedes cambiar entre los modelos de Google. Puedes cambiar entre los modelos del socio A. Puedes cambiar entre los modelos del socio B. No puedes cambiar entre los modelos de Google, el socio A y el socio B.
No hay tiempo de inactividad cuando cambias de la modalidad de pago por uso a la de capacidad de procesamiento aprovisionada.
No hay tiempo de inactividad cuando cambias de modelo para un pedido de capacidad de procesamiento aprovisionada. Sin embargo, se requiere el tiempo de preparación para adquirir la capacidad de procesamiento.
De forma predeterminada, el excedente se factura como pago por uso.
Si tu capacidad de procesamiento supera el importe de tu pedido de capacidad de procesamiento aprovisionada, los excedentes se procesan y facturan como pago por uso. Puedes controlar los excedentes por solicitud. Para obtener más información, consulta Cómo usar la API de REST.
Las solicitudes se priorizan.
Las solicitudes de los clientes de la capacidad de procesamiento aprovisionada se priorizan y se atienden primero antes que las solicitudes on demand.
Debes comprometerte con un pago y un uso mínimo.
El uso mínimo depende del modelo de IA generativa que selecciones. Cualquier uso que no sea la tasa de capacidad de procesamiento adquirida no está garantizado y se entrega según un esfuerzo razonable.
La capacidad de procesamiento no se acumula.
La capacidad de procesamiento sin usar no se acumula ni se transfiere al mes siguiente.
La capacidad de procesamiento aprovisionada se mide en caracteres o tokens por segundo.
La capacidad de procesamiento aprovisionada se mide en caracteres o tokens por segundo, no en consultas por minuto (QPM). Como resultado, la medición de la capacidad de procesamiento aprovisionada depende del tamaño de la consulta y del QPM de tu caso de uso.
La capacidad de procesamiento aprovisionada verifica tu cuota.
Tu cuota de rendimiento aprovisionado se verifica cada vez que realizas una solicitud dentro del período de la cuota. Para los modelos
gemini-1.5-flash-002
ygemini-1.5-pro-002
, la ventana de cuota es de 30 segundos. Esto significa que, en algunos casos, es posible que experimentes temporalmente un tráfico prioritario que supere el importe de tu cuota por segundo, pero no deberías exceder tu cuota por 30 segundos. El período de cuota para otros modelos es de un minuto.Los extremos de modelos ajustados supervisados y su modelo base correspondiente se consideran para la misma cuota de rendimiento aprovisionado. Esta es una función de versión preliminar. Completa y envía el formulario de control de acceso de rendimiento aprovisionado.
Por ejemplo, la capacidad de procesamiento aprovisionada que se compra para
gemini-1.5-pro-002
en un proyecto específico prioriza las solicitudes realizadas desde versiones supervisadas y optimizadas degemini-1.5-pro-002
creadas en ese proyecto. Usa el encabezado apropiado para controlar el comportamiento del tráfico.
Compra capacidad de procesamiento aprovisionada
En esta sección, se proporcionan los permisos que debes tener para realizar o ver un pedido de capacidad de procesamiento aprovisionada, y las instrucciones para realizar y ver tus pedidos.
Permisos
Para suscribirte a la capacidad de procesamiento aprovisionada, debes tener uno de los siguientes permisos asignados a tu proyecto, lo que te permite crear una lista de pedidos nuevos y realizarlos.
aiplatform.googleapis.com/provisionedThroughputAdmin
: Es específico de la capacidad de procesamiento aprovisionada.aiplatform.googleapis.com/admin
: Otorga derechos administrativos a todos los recursos de Vertex AI.
Este rol te permite solo mostrar tus pedidos:
aiplatform.googleapis.com/viewer
Cómo realizar un pedido de capacidad de procesamiento aprovisionada
Antes de realizar el pedido para usar los modelos de Imagen, envía el formulario de solicitud para otorgar permisos.
Antes de realizar un pedido para usar MedLM-large-1.5, comunícate con tu representante de cuentas de Google Cloud para solicitar acceso. Si esperas que tu QPM supere los 30,000, para maximizar tu pedido de rendimiento reservado, solicita un aumento a la cuota predeterminada del sistema de Vertex AI con la siguiente información:
- Servicio: La API de Vertex AI.
- Nombre:
Online prediction requests per minute per region
- Tipo de servicio: Es una cuota.
- Dimensiones: La región en la que solicitaste la capacidad de procesamiento aprovisionada
- Valor: Es el límite de tráfico de predicción en línea que elegiste.
Sigue estos pasos para comprar la capacidad de procesamiento aprovisionada:
Console
- En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.
- Para comenzar un pedido nuevo, haz clic en Crear.
- Ingresa un Nombre de pedido.
- Selecciona el Modelo.
- Selecciona la Región.
- Ingresa la cantidad de unidades de escalamiento de IA generativa (GSU) que debes comprar. Si debes estimar la cantidad de GSU, haz clic en la herramienta de estimación.
- Selecciona tu Modelo.
- Ingresa la cantidad de consultas por segundo.
- Ingresa la cantidad de caracteres de entrada por consulta.
- Ingresa la cantidad de imágenes de entrada por consulta.
- Ingresa la cantidad de segundos de video por consulta.
- Ingresa la cantidad de segundos de audio por consulta.
- Ingresa la cantidad de caracteres de salida por consulta.
- Si deseas usar los valores que ingresaste en la herramienta de estimación, haz clic en Usar calculado.
- Selecciona el Plazo.
Si eliges una semana, tienes la opción de proporcionar una fecha y una hora de inicio dentro de las dos semanas posteriores a la realización de un pedido. Si no proporcionas una fecha y hora de inicio, procesaremos el pedido en cuanto podamos asegurarnos de que haya capacidad disponible. Las fechas y horas de inicio solicitadas se procesan de la mejor manera posible, y no se garantiza que los pedidos se completen en esas fechas hasta que el estado del pedido se establezca como Aprobado.
Si la fecha de inicio solicitada es demasiado cercana a la fecha actual, es posible que tu pedido se apruebe y active después de esa fecha, lo que significa que la fecha de finalización será siete días después de la fecha de activación.
- Selecciona la opción Renovación.
- Haga clic en Continuar.
- En la sección Resumen, revisa las estimaciones de precio y capacidad de procesamiento de tu pedido. Lee los términos que se indican y vinculan en el formulario.
- Para finalizar el pedido, haz clic en Confirmar.
Comprobar estado del pedido
Después de enviar tu pedido de capacidad de procesamiento aprovisionada, el estado del pedido podría ser uno de los siguientes:
- Pendiente de revisión: Realizaste tu pedido. Como la aprobación depende de la capacidad disponible para aprovisionar tu pedido, este se encuentra en espera de revisión y aprobación. Para obtener más información sobre el estado de tu pedido pendiente, comunícate con tu representante de cuenta de Google Cloud.
- Aprobado: Google aprobó tu pedido.
- Activo: Google activó tu pedido y, luego, comienza la facturación.
- Vencido: Tu pedido venció.
Cómo ver los pedidos de capacidad de procesamiento aprovisionada
Sigue estos pasos para ver tus pedidos de capacidad de procesamiento aprovisionada:
Console
- En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.
- Selecciona la Región. Aparecerá tu lista de pedidos.
Usa la capacidad de procesamiento aprovisionada
En esta sección, se explica cómo controlar los excedentes u omitir la capacidad de procesamiento aprovisionada y cómo supervisar su uso.
Controla los excedentes o omite la capacidad de procesamiento aprovisionada
Usa la API de REST para controlar los excedentes cuando superes la capacidad de procesamiento que compraste o para omitir la capacidad de procesamiento aprovisionada por solicitud.
Lee cada opción para determinar qué debes hacer para cumplir con tu caso de uso.
Comportamiento predeterminado
Si superas el importe de capacidad de procesamiento que compraste, los excedentes se transfieren a la demanda y se facturan a la tarifa de pago por uso. Una vez que tu pedido de capacidad de procesamiento aprovisionada esté activo, el comportamiento predeterminada se realizará automáticamente. No es necesario que cambies tu código para comenzar a consumir tu pedido.
En este ejemplo de curl, se muestra el comportamiento predeterminado.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Usa solo la capacidad de procesamiento aprovisionada
Si administras los costos evitando los cargos bajo demanda, usa solo la capacidad de procesamiento aprovisionada. Las solicitudes que superan el importe del pedido de capacidad de procesamiento aprovisionada muestran un error 429.
En este ejemplo de curl, se muestra cómo puedes usar la API de REST para usar solo tu suscripción a la capacidad de procesamiento aprovisionada, con los excedentes que muestran un error 429.
Configurar el encabezado X-Vertex-AI-LLM-Request-Type
como dedicated
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: dedicated" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Usar solo el pago por uso
Esto también se conoce como uso a pedido. Las solicitudes omiten el pedido de rendimiento reservado y se envían directamente al pago por uso. Esto puede ser útil para experimentos o aplicaciones que están en desarrollo.
En este ejemplo de curl, se muestra cómo puedes usar la API de REST para omitir la capacidad de procesamiento aprovisionada y usar solo el pago por uso.
Configurar el encabezado X-Vertex-AI-LLM-Request-Type
como shared
.
! curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
-H "X-Vertex-AI-LLM-Request-Type: shared" \
$URL \
-d '{"contents": [{"role": "user", "parts": [{"text": "Hello."}]}]}'
Supervisa la capacidad de procesamiento aprovisionada
Puedes supervisar el uso de la capacidad de procesamiento aprovisionada a través de las métricas de supervisión y por solicitud.
Encabezados de respuesta
Si se procesó una solicitud con la capacidad de procesamiento aprovisionada, el siguiente encabezado HTTP está presente en la respuesta. Esta línea de código solo se aplica a la llamada a la API de generateContent
.
{"X-Vertex-AI-LLM-Request-Type": "dedicated"}
Métricas
La capacidad de procesamiento aprovisionada se puede supervisar con un conjunto de métricas que se miden en el tipo de recurso aiplatform.googleapis.com/PublisherModel
. Cada métrica se puede filtrar según las siguientes dimensiones:
type
:input
,output
request_type
:dedicated
,shared
Para filtrar una métrica y ver el uso de la capacidad de procesamiento aprovisionada, usa el tipo de solicitud dedicated
. El prefijo de ruta de una métrica es aiplatform.googleapis.com/publisher/online_serving
.
Por ejemplo, la ruta de acceso completa de la métrica /consumed_throughput
es aiplatform.googleapis.com/publisher/online_serving/consumed_throughput
.
Las siguientes métricas de Cloud Monitoring están disponibles en el recurso aiplatform.googleapis.com/PublisherModel
:
Métrica | Nombre visible | Descripción | Filtra el uso de la capacidad de procesamiento aprovisionada |
---|---|---|---|
/characters |
Personajes | Distribución del recuento de caracteres de entrada y salida. | |
/character_count |
Recuento de caracteres | Es el recuento acumulado de caracteres de entrada y salida. | |
/consumed_throughput |
Capacidad de procesamiento de caracteres | Tasa de capacidad de procesamiento consumida (considera la tasa de consumo) en caracteres. | |
/model_invocation_count |
Recuento de invocaciones de modelos | Cantidad de invocaciones de modelos (solicitudes de predicción). | |
/model_invocation_latencies |
Latencias de invocación de modelos | Latencias de invocación del modelo (latencia de predicción) | |
/first_token_latencies |
Latencias de los primeros tokens | Es la duración desde que se recibe la solicitud hasta que se muestra el primer token. | |
/tokens |
Tokens | Distribución del recuento de tokens de entrada y salida. | |
/token_count |
Recuento de tokens | Cantidad acumulada de tokens de entrada y salida. |
Soluciona problemas de la capacidad de procesamiento aprovisionada
Para corregir el error 429 que genera la capacidad de procesamiento aprovisionada, haz lo siguiente:
- Usa el ejemplo predeterminado, que no establece un encabezado en las solicitudes de predicción. Cualquier excedente se procesa a pedido y se factura como pago por uso.
- Aumenta la cantidad de GSU en tu suscripción a la capacidad de procesamiento aprovisionada.
¿Qué sigue?
- Comunícate con tu representante de cuenta de Google Cloud para realizar un pedido de capacidad de procesamiento aprovisionada o aumentar la cantidad de GSU en un pedido existente.
- Para obtener más información sobre cómo solucionar el error 429 cuando se usa la cuota compartida dinámica o la capacidad de procesamiento aprovisionada, consulta Código de error
429
. - Para obtener más información sobre la cuota compartida dinámica (DSQ), consulta Cuota compartida dinámica.