En las siguientes tablas, se muestran los modelos que admiten la capacidad de procesamiento aprovisionada, la capacidad de procesamiento para cada unidad de escala de IA generativa (GSU) y las tasas de consumo para cada modelo.
Modelos de Google
En esta tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de Google que admiten la capacidad de procesamiento aprovisionada. Los modelos de Google se miden en caracteres por segundo, que se definen como la entrada de tu instrucción y los caracteres de salida de texto generados en todas las solicitudes por segundo.
Modelo | Capacidad de procesamiento por GSU (caracteres/s) | Incremento mínimo de compra de GSU | Tasas de consumo | |
---|---|---|---|---|
Gemini 1.5 Flash | Ventana de contexto menor o igual que 128,000 tokens: 54,000 Ventana de contexto mayor que 128,000 tokens: 27,000 |
1 | Ventana de contexto menor o igual que 128,000 tokens: 1 carácter de entrada = 1 carácter 1 carácter de salida = 4 caracteres 1 imagen = 1,067 caracteres 1 video por segundo = 1,067 caracteres 1 audio por segundo = 107 caracteres |
Ventana de contexto de más de 128,000 tokens: 1 carácter de entrada = 2 caracteres 1 carácter de salida = 8 caracteres 1 imagen = 2,134 caracteres 1 video por segundo = 2,134 caracteres 1 audio por segundo = 214 caracteres |
Gemini 1.5 Pro | 800 | 1 | Ventana de contexto menor o igual que 128,000 tokens: 1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres 1 imagen = 1,052 caracteres 1 video por segundo = 1,052 caracteres 1 audio por segundo = 100 caracteres |
Ventana de contexto de más de 128,000 tokens: 1 carácter de entrada = 2 caracteres 1 carácter de salida = 6 caracteres 1 imagen = 2,104 caracteres 1 video por segundo = 2,104 caracteres 1 audio por segundo = 200 caracteres |
Gemini 1.0 Pro | 8,000 | 1 | 1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres 1 imagen = 20,000 caracteres 1 video por segundo = 16,000 caracteres |
|
Imagen 3 | 0.025 La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s. |
1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. | |
Imagen 3 Fast | 0.05 La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s. |
1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. | |
Imagen 2 | 0.05 La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s. |
1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. | |
Edición de la imagen 2 | 0.05 La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s. |
1 | Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada. | |
MedLM medio | 2,000 | 1 | 1 carácter de entrada = 1 carácter 1 carácter de salida = 2 caracteres |
|
MedLM grande | 200 | 1 | 1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres |
|
MedLM large 1.5 | 200 | 1 | 1 carácter de entrada = 1 carácter 1 carácter de salida = 3 caracteres |
Para obtener más información sobre las ubicaciones compatibles, consulta Ubicaciones disponibles.
Puedes actualizar a modelos nuevos a medida que estén disponibles. Para obtener información sobre la disponibilidad de los modelos y las fechas de baja, consulta Modelos de Google.
Funciones de versión preliminar
Las funciones de versión preliminar de la capacidad de procesamiento aprovisionada requieren aprobación de acceso. Para solicitar acceso, completa y envía el formulario de control de acceso de rendimiento aprovisionado.
La versión preliminar proporciona lo siguiente para los modelos de Google:
La capacidad de procesamiento aprovisionada se puede aplicar a los modelos base y a las versiones supervisadas y ajustadas de esos modelos base.
Los extremos de modelos ajustados supervisados y su modelo de base correspondiente se registran en la misma cuota de rendimiento aprovisionado.
Por ejemplo, el rendimiento aprovisionado que se compra para
gemini-1.5-pro-002
en un proyecto específico prioriza las solicitudes que se realizan desde versiones supervisadas y optimizadas degemini-1.5-pro-002
creadas en ese proyecto. Usa el encabezado apropiado para controlar el comportamiento del tráfico.La capacidad de procesamiento aprovisionada se puede comprar por un período de una semana en lugar de una suscripción mensual, con la opción de proporcionar una fecha de inicio dentro de las dos semanas posteriores a la realización del pedido.
Modelos heredados de Google
Consulta Modelos heredados que admiten la capacidad de procesamiento aprovisionada.
Modelos de socios
En esta tabla, se muestran las tasas de rendimiento, incremento de compras y consumo para los modelos de socios que admiten la capacidad de procesamiento aprovisionada. Los modelos de Claude se miden en tokens por segundo, que se define como un total de tokens de entrada y salida en todas las solicitudes por segundo.
Modelo | Capacidad de procesamiento por GSU (tokens/s) | Compra mínima de GSU | Incremento de compra de GSU | Tasas de consumo |
---|---|---|---|---|
Anthropic Claude 3.5 Sonnet v2 | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Anthropic Claude 3.5 Haiku | 2,000 | 10 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Claude 3 Opus de Anthropic | 70 | 35 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Anthropic Claude 3 Haiku | 4,200 | 5 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Anthropic Claude 3.5 Sonnet | 350 | 25 | 1 | 1 token de entrada = 1 token 1 token de salida = 5 tokens |
Para obtener información sobre las ubicaciones compatibles, consulta Disponibilidad de regiones de Claude Anthropic. Para pedir throughput aprovisionado para modelos Anthropic, comunícate con tu representante de cuenta deGoogle Cloud .