Modelos compatibles

En las siguientes tablas, se muestran los modelos que admiten la capacidad de procesamiento aprovisionada, la capacidad de procesamiento para cada unidad de escala de IA generativa (GSU) y las tasas de consumo para cada modelo.

Modelos de Google

En esta tabla, se muestran las tasas de capacidad de procesamiento, incremento de compra y consumo para los modelos de Google que admiten la capacidad de procesamiento aprovisionada. Los modelos de Google se miden en caracteres por segundo, que se definen como la entrada de tu instrucción y los caracteres de salida de texto generados en todas las solicitudes por segundo.

Modelo Capacidad de procesamiento por GSU (caracteres/s) Incremento mínimo de compra de GSU Tasas de consumo
Gemini 1.5 Flash Ventana de contexto menor o igual que 128,000 tokens:
54,000

Ventana de contexto mayor que 128,000 tokens:
27,000
1 Ventana de contexto menor o igual que 128,000 tokens:
1 carácter de entrada = 1 carácter
1 carácter de salida = 4 caracteres
1 imagen = 1,067 caracteres
1 video por segundo = 1,067 caracteres
1 audio por segundo = 107 caracteres
Ventana de contexto de más de 128,000 tokens:
1 carácter de entrada = 2 caracteres
1 carácter de salida = 8 caracteres
1 imagen = 2,134 caracteres
1 video por segundo = 2,134 caracteres
1 audio por segundo = 214 caracteres
Gemini 1.5 Pro 800 1 Ventana de contexto menor o igual que 128,000 tokens:
1 carácter de entrada = 1 carácter
1 carácter de salida = 3 caracteres
1 imagen = 1,052 caracteres
1 video por segundo = 1,052 caracteres
1 audio por segundo = 100 caracteres
Ventana de contexto de más de 128,000 tokens:
1 carácter de entrada = 2 caracteres
1 carácter de salida = 6 caracteres
1 imagen = 2,104 caracteres
1 video por segundo = 2,104 caracteres
1 audio por segundo = 200 caracteres
Gemini 1.0 Pro 8,000 1 1 carácter de entrada = 1 carácter
1 carácter de salida = 3 caracteres
1 imagen = 20,000 caracteres
1 video por segundo = 16,000 caracteres
Imagen 3 0.025
La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s.
1 Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 3 Fast 0.05
La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s.
1 Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Imagen 2 0.05
La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s.
1 Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
Edición de la imagen 2 0.05
La capacidad de procesamiento se mide en imágenes/s en lugar de caracteres/s.
1 Solo las imágenes de salida se consideran en tu cuota de Capacidad de procesamiento aprovisionada.
MedLM medio 2,000 1 1 carácter de entrada = 1 carácter
1 carácter de salida = 2 caracteres
MedLM grande 200 1 1 carácter de entrada = 1 carácter
1 carácter de salida = 3 caracteres
MedLM large 1.5 200 1 1 carácter de entrada = 1 carácter
1 carácter de salida = 3 caracteres

Para obtener más información sobre las ubicaciones compatibles, consulta Ubicaciones disponibles.

Puedes actualizar a modelos nuevos a medida que estén disponibles. Para obtener información sobre la disponibilidad de los modelos y las fechas de baja, consulta Modelos de Google.

Funciones de versión preliminar

Las funciones de versión preliminar de la capacidad de procesamiento aprovisionada requieren aprobación de acceso. Para solicitar acceso, completa y envía el formulario de control de acceso de rendimiento aprovisionado.

La versión preliminar proporciona lo siguiente para los modelos de Google:

  • La capacidad de procesamiento aprovisionada se puede aplicar a los modelos base y a las versiones supervisadas y ajustadas de esos modelos base.

  • Los extremos de modelos ajustados supervisados y su modelo de base correspondiente se registran en la misma cuota de rendimiento aprovisionado.

    Por ejemplo, el rendimiento aprovisionado que se compra para gemini-1.5-pro-002 en un proyecto específico prioriza las solicitudes que se realizan desde versiones supervisadas y optimizadas de gemini-1.5-pro-002 creadas en ese proyecto. Usa el encabezado apropiado para controlar el comportamiento del tráfico.

  • La capacidad de procesamiento aprovisionada se puede comprar por un período de una semana en lugar de una suscripción mensual, con la opción de proporcionar una fecha de inicio dentro de las dos semanas posteriores a la realización del pedido.

Modelos heredados de Google

Consulta Modelos heredados que admiten la capacidad de procesamiento aprovisionada.

Modelos de socios

En esta tabla, se muestran las tasas de rendimiento, incremento de compras y consumo para los modelos de socios que admiten la capacidad de procesamiento aprovisionada. Los modelos de Claude se miden en tokens por segundo, que se define como un total de tokens de entrada y salida en todas las solicitudes por segundo.

Modelo Capacidad de procesamiento por GSU (tokens/s) Compra mínima de GSU Incremento de compra de GSU Tasas de consumo
Anthropic Claude 3.5 Sonnet v2 350 25 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
Anthropic Claude 3.5 Haiku 2,000 10 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
Claude 3 Opus de Anthropic 70 35 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
Anthropic Claude 3 Haiku 4,200 5 1 1 token de entrada = 1 token
1 token de salida = 5 tokens
Anthropic Claude 3.5 Sonnet 350 25 1 1 token de entrada = 1 token
1 token de salida = 5 tokens

Para obtener información sobre las ubicaciones compatibles, consulta Disponibilidad de regiones de Claude Anthropic. Para pedir throughput aprovisionado para modelos Anthropic, comunícate con tu representante de cuenta deGoogle Cloud .

¿Qué sigue?