Modelos de Google

Vertex AI cuenta con una lista creciente de modelos de base que puedes probar, implementar y personalizar para usar en tus aplicaciones basadas en IA. Los modelos de base se ajustan para casos de uso específicos y se ofrecen en diferentes precios. En esta página, se resumen los modelos que están disponibles en las diversas APIs y se brinda orientación sobre qué modelos elegir por caso de uso.

Para obtener más información sobre todos los modelos y las APIs de IA en Vertex AI, consulta Explora los modelos de IA en Model Garden.

Modelos de Gemini

En la siguiente tabla, se resumen los modelos disponibles en la API de Gemini. Para obtener más información sobre los detalles de la API, consulta la referencia de la API de Gemini.

Para explorar un modelo en la consola de Google Cloud, selecciona su tarjeta de modelo en Model Garden.

Modelo	Entradas	Resultados	Caso práctico	Prueba el modelo
Gemini 1.5 Flash	Texto, código, imágenes, audio, video, video con audio, PDF	Texto	Proporciona velocidad y eficiencia para apps de gran volumen, calidad y rentabilidad.	Prueba Gemini 1.5 Flash
Gemini 1.5 Pro	Texto, código, imágenes, audio, video, video con audio, PDF	Texto	Admite mensajes de texto o chat para una respuesta de texto o código. : Admite la comprensión del contexto a largo plazo hasta el límite máximo de token de entrada.	Prueba Gemini 1.5 Pro
Gemini 1.0 Pro	Texto	Texto	El modelo con mejor rendimiento para una amplia gama de tareas de solo texto.	Prueba Gemini 1.0 Pro
Gemini 1.0 Pro Vision	Texto, imágenes, audio, video, video con audio, PDF	Texto	El modelo de comprensión de imágenes y videos con mejor rendimiento para manejar una amplia gama de aplicaciones.	Prueba Gemini 1.0 Pro Vision
Gemini 1.0 Ultra	Texto	Texto	El modelo de texto más capaz, optimizado para tareas complejas, incluidas instrucciones, código y razonamiento.	Prueba Gemini 1.0 Ultra
Gemini 1.0 Ultra Vision	Texto, código, imágenes, audio, video, video con audio, PDF	Texto	El modelo de visión multimodal más capaz. Optimizada para admitir entradas de texto, imágenes y video conjuntas.	Prueba Gemini 1.0 Ultra Vision

En la siguiente información, se proporcionan detalles sobre cada modelo de Gemini.

Gemini 1.5 Flash

Descripción

Un modelo multimodal diseñado para aplicaciones rentables y de gran volumen, y que ofrece velocidad y eficiencia para compilar aplicaciones rápidas y de bajo costo que no afectan la calidad.

Funciones

Función	Disponibilidad
Fundamentos	Sí (solo entrada de texto)
Ajuste	No
Instrucción del sistema	Sí. Consulta Usa las instrucciones del sistema.
Compatibilidad con JSON	Sí

Especificaciones

Especificación
Cantidad máxima de tokens de entrada: 1,048,576
Cantidad máxima de tokens de salida: 8,192
Tamaño máximo de la imagen sin formato: 20 MB
Tamaño máximo de la imagen codificada en base64: 7 MB
Cantidad máxima de imágenes por instrucción: 3,000
Duración máxima del video: 1 hora
Cantidad máxima de videos por instrucción: 10
Duración máxima de audio: aproximadamente 8.4 horas
Audio máximo por instrucción: 1
Tamaño máximo de PDF: 30 MB
Datos de entrenamiento: hasta mayo de 2024

Versiones del modelo

Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.

Versiones estables

Modelo Gemini 1.5 Flash	Fecha de lanzamiento	Fecha de descontinuación
gemini-1.5-flash-001	24 de mayo de 2024	24 de mayo de 2025

Versiones preliminares

Nombre del modelo	Nombre de la vista previa	Fecha de descontinuación
Gemini 1.5 Flash (versión preliminar)	`gemini-1.5-flash-preview-0514`	24 de junio de 2024

Gemini 1.5 Pro

Descripción

Modelo multimodal que admite agregar archivos de imagen, audio, video y PDF en instrucciones de texto o chat para una respuesta de texto o código. Este modelo admite la comprensión del contexto a largo plazo hasta el límite máximo de token de entrada.

Funciones

Función	Disponibilidad
Fundamentos	Sí (solo entrada de texto)
Ajuste	No
Instrucción del sistema	Sí. Consulta Usa las instrucciones del sistema.
Compatibilidad con JSON	Sí

Especificaciones

Especificación
Cantidad máxima de tokens de entrada: 2,097,152
Cantidad máxima de tokens de salida: 8,192
Cantidad máxima de imágenes por instrucción: 3,000
Duración máxima del video (solo fotogramas): aproximadamente una hora
Duración máxima del video (fotograma y audio): aproximadamente 45 minutos
Cantidad máxima de videos por instrucción: 10
Duración máxima de audio: aproximadamente 8.4 horas
Audio máximo por instrucción: 1
Tamaño máximo de PDF: 30 MB
Datos de entrenamiento: hasta mayo de 2024

Versiones del modelo

Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.

Versiones estables

Modelo Gemini 1.5 Pro	Fecha de lanzamiento	Fecha de descontinuación
gemini-1.5-pro-001	24 de mayo de 2024	24 de mayo de 2025

Versiones preliminares

Nombre del modelo	ID de modelo	Fecha de descontinuación
Gemini 1.5 Pro (versión preliminar)	`gemini-1.5-pro-preview-0514`	24 de junio de 2024
Gemini 1.5 Pro (versión preliminar)	`gemini-1.5-pro-preview-0409` (a punta a y usa `gemini-1.5-pro-preview-0514`)	14 de junio de 2024

Gemini 1.0 Pro

Descripción

El modelo con mejor rendimiento y características para una amplia gama de tareas de solo texto. Este modelo solo admite texto como entrada.

Funciones

Función	Disponibilidad
Fundamentos	Sí (solo entrada de texto)
Ajuste	Sí. El ajuste supervisado es compatible con gemini-1.0-pro-002.
Instrucción del sistema	Sí. Compatible con gemini-1.0-pro-002. Consulta Usa las instrucciones del sistema.
Compatibilidad con JSON	Sí

Especificaciones

Especificación
Cantidad máxima de tokens de entrada: 32,760
Cantidad máxima de tokens de salida: 8,192
Datos de entrenamiento: hasta febrero de 2023

Versiones del modelo

Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.

Versiones estables

Modelo Gemini 1.0 Pro	Fecha de lanzamiento	Fecha de descontinuación
gemini-1.0-pro-001	15 de febrero de 2024	15 de febrero de 2025
gemini-1.0-pro-002	9 de abril de 2024	9 de abril de 2025

Versiones actualizadas automáticamente

Nombre del modelo	Nombre actualizado automáticamente	Versión estable a la que se hace referencia
Gemini 1.0 Pro	`gemini-1.0-pro`	`gemini-1.0-pro-002`

Gemini 1.0 Pro Vision

Descripción

El modelo de comprensión de imágenes y videos con mejor rendimiento para manejar una amplia gama de aplicaciones. Gemini 1.0 Pro Vision admite texto, imágenes y video como entradas.

Funciones

Función	Disponibilidad
Fundamentos	No
Ajuste	No
Instrucción del sistema	No
Compatibilidad con JSON	No

Especificaciones

Especificación
Cantidad máxima de tokens de entrada: 16,384
Cantidad máxima de tokens de salida: 2,048
Cantidad máxima de imágenes por instrucción: 16
Duración máxima del video: 2 minutos
Cantidad máxima de videos por instrucción: 1
Datos de entrenamiento: hasta febrero de 2023

Versiones del modelo

Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.

Versiones estables

Modelo Gemini 1.0 Pro Vision	Fecha de lanzamiento	Fecha de descontinuación
gemini-1.0-pro-vision-001	15 de febrero de 2024	15 de febrero de 2025

Alias actualizados automáticamente

Nombre del modelo	Nombre actualizado automáticamente	Versión estable a la que se hace referencia
Gemini 1.0 Pro Vision	`gemini-1.0-pro-vision`	`gemini-1.0-pro-vision-001`

Gemini 1.0 Ultra

Descripción

El modelo de texto más capaz de Google, optimizado para tareas complejas, incluidas instrucciones, código y razonamiento. Gemini 1.0 Ultra solo admite texto como entrada.

Funciones

Función	Disponibilidad
Fundamentos	No
Ajuste	No
Instrucción del sistema	No
Compatibilidad con JSON	No

Especificaciones

Especificación
Cantidad máxima de tokens de entrada: 8,192
Cantidad máxima de tokens de salida: 2,048

Versiones del modelo

Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.

Gemini 1.0 Ultra Vision

Descripción

El modelo de visión multimodal más capaz de Google, optimizado para admitir entradas de texto, imágenes y video conjuntas.

Funciones

Función	Disponibilidad
Fundamentos	No
Ajuste	No
Instrucción del sistema	No
Compatibilidad con JSON	No

Especificaciones

Especificación
Cantidad máxima de tokens de entrada: 8,192
Cantidad máxima de tokens de salida: 2,048

Versiones del modelo

Para obtener más información sobre las versiones de modelos, consulta Versiones de modelos.

Compatibilidad con idiomas de Gemini

Los modelos de Gemini admiten los siguientes idiomas:

árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), neerlandés (nl), inglés (en), estonio (et), finés (fi), Francés (fr), Alemán (de), Griego (el), Hebreo (iw), Hindi (hi), Húngaro (hu), indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), lituano (lt), noruego (no), polaco (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), español (es), swahili (sw), sueco (sv), tailandés (th), turco (tr), ucraniano (uk), vietnamita (vi).

Modelos de Gemma

En la siguiente tabla, se resumen los modelos de Gemma.

Modelo	Entradas	Resultados	Caso práctico	Prueba el modelo
Gemma Detalles del modelo	Texto	Texto	Un modelo de texto abierto pequeño y liviano que admite la generación, resumen y extracción de texto. Se puede implementar en entornos con recursos limitados.	Probar Gemma
CodeGemma Detalles del modelo	Texto, código, PDF	Texto	Una colección de modelos de código abierto ligeros compilados sobre Gemma. Ideal para la generación y finalización de código.	Prueba CodeGemma
PaliGemma Detalles del modelo	Texto, imágenes	Texto	Un modelo ligero de lenguaje de visión (VLM). Ideal para tareas de leyenda de imágenes y tareas visuales de preguntas y respuestas.	Prueba PaliGemma

Compatibilidad de Gemma con idiomas

Gemma solo admite el idioma inglés.

Modelos de embeddings

En la siguiente tabla, se resumen los modelos disponibles en la API de incorporaciones:

Nombre del modelo	Descripción	Especificaciones	Prueba el modelo
Embeddings para texto (`textembedding-gecko@001, textembedding-gecko@002, textembedding-gecko@003, text-embedding-004`) Detalles del modelo	Muestra embeddings para entradas de texto en inglés. Admite el ajuste supervisado de embeddings para modelos de texto, solo en inglés.	Entrada máxima de tokens: 3,072 (`textembedding-gecko@001`). Otros: 2,048. Dimensiones de embeddings: `text-embedding-004`: <=768. Otros: 768.	Prueba Embeddings para texto
Embeddings para texto multilingüe (`textembedding-gecko-multilingual@001` , `text-multilingual-embedding-002` ). Detalles del modelo	Muestra embeddings para entradas de texto de más de 100 idiomas Admite el ajuste supervisado del modelo `text-multilingual-embedding-002`. Admite más de 100 idiomas.	Entrada máxima de tokens: 2,048. Dimensiones de embeddings: `text-multilingual-embedding-002`: <=768. Otros: 768.	Prueba Embeddings para texto multilingüe
Embeddings para multimodales `(multimodalembedding)` Detalles del modelo	Muestra incorporaciones para entradas de texto, imagen y video a fin de comparar contenido entre diferentes modelos. Convierte texto, imagen y video en el mismo espacio vectorial. El video solo admite 1,408 dimensiones. Solo en inglés.	Entrada máxima de tokens: 32, Tamaño máximo de la imagen: 20 MB. Duración máxima del video: dos minutos. Dimensión de embeddings: 128, 256, 512 o 1,408 para entrada de texto + imagen; 1,408 para entrada de video.	Prueba Embeddings para multimodales

Compatibilidad con idiomas de embeddings

Los modelos de incorporación multilingües de texto admiten los siguientes idiomas:
afrikaans, albanés, amárico, árabe, armenio, azerbaiyano, vasco, bielorruso, bengalí, búlgaro, birmano, catalán, cebuano, chichewa, chino, corso, checo, danés, neerlandés, inglés, esperanto, estonio, filipino, finés, francés, gallego, georgiano, alemán, griego, gujarati, criollo haitiano, hausa, hawaiano, hebreo, hindi, hmong, húngaro, islandés, igbo, indonesio, irlandés, italiano, japonés, javanés, canarés, kazajo, jemer, coreano, kurdo, kirguís, lao, latín, letón, lituano, luxemburgués, macedonio, malgache, malayo, malayalam, maltés, maorí, marathi, mongol, nepalí, noruego, pastún, persa, polaco, portugués, punyabí, rumano, ruso, samoano, gaélico escocés, serbio, shona, sindhi, cingalés, eslovaco, esloveno, somalí, sotho, español, sundanés, swahili, sueco, tayiko, tamil, telugu, tailandés, turco, ucraniano, urdu, uzbeko, vietnamita, galés, frisón occidental, xhosa, yiddish, yoruba, zulú.

Modelo de imagen

En la siguiente tabla, se resumen los modelos disponibles en la API de Imagen:

Modelo	Entradas	Resultados	Caso práctico	Prueba el modelo
Imagen 2 (`imagegeneration@006`) Detalles del modelo	Texto (generación), Imágenes (edición)	Imágenes	Este modelo admite la generación y edición de imágenes para crear imágenes de alta calidad en segundos. La función de edición admite la eliminación y la inserción de objetos, el retoque y la edición de productos.	Prueba Imagen 2

Compatibilidad de Imagen 2 con idiomas

Imagen 2 admite los siguientes idiomas:
Inglés, chino, hindi, japonés, coreano, portugués y español.

Modelo de finalización de código

En la siguiente tabla, se resumen los modelos disponibles en las APIs de Codey:

Modelo	Entradas	Resultados	Caso práctico	Prueba el modelo
Codey para la finalización de código (`code-gecko`) Detalles del modelo	Código en idiomas compatibles	Código en idiomas compatibles	Un modelo ajustado para sugerir la finalización del código según el contexto en el código que se escribe.	Prueba Codey para la finalización de código

Compatibilidad con el lenguaje del modelo de finalización de código

El modelo de finalización de código admite el idioma inglés.

Modelos de MedLM

En la siguiente tabla, se resumen los modelos disponibles en la API de MedLM:

Nombre del modelo	Descripción	Especificaciones	Prueba el modelo
MedLM-medium (`medlm-medium`) Detalles del modelo	Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la tecnología de Google Research. Este modelo ayuda a los profesionales de la salud con tareas de preguntas y respuestas médicas, y tareas de resumen para documentos médicos y de atención de la salud. Proporciona una mejor capacidad de procesamiento y, además, incluye datos más recientes que el modelo `medlm-large`.	Cantidad máxima de tokens (entrada + salida): 32,768 Tokens de resultado máximo: 8192	Prueba MedLM-medium
MedLM-large (`medlm-large`) Detalles del modelo	Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la tecnología de Google Research. Este modelo ayuda a los profesionales de la salud con tareas de preguntas y respuestas médicas, y tareas de resumen para documentos médicos y de atención de la salud.	Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 1,024	Prueba MedLM-large

Compatibilidad con idiomas de MedLM

El modelo MedLM admite el idioma en inglés.

Ubicaciones

Para obtener una lista de las ubicaciones en las que están disponibles estos modelos, consulta IA generativa en ubicaciones de Vertex AI.

Versiones del modelo

Para obtener información sobre las versiones de modelos, consulta Versiones de modelos.

Explora todos los modelos en Model Garden

Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar e implementar modelos de la propiedad de Google y elegir modelos y recursos de OSS. Para explorar los modelos y las APIs de IA que están disponibles en Vertex AI, ve a Model Garden en la consola de Google Cloud.

Ir a Model Garden

Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta Explora los modelos de IA en Model Garden.

Próximos pasos

Prueba un instructivo de guía de inicio rápido con Vertex AI Studio o la API de Vertex AI.
Obtén información sobre cómo probar los mensajes de texto.
Obtén información para probar las instrucciones de chat.
Explora modelos previamente entrenados en Model Garden.
Obtén información para ajustar un modelo de base.
Obtén información sobre las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.