Se usó la API de Cloud Translation para traducir esta página.

Modelos de Google

Vertex AI cuenta con una lista creciente de modelos de base que puedes probar, implementar y personalizar para usar en tus aplicaciones basadas en IA. Los modelos de base se ajustan para casos de uso específicos y se ofrecen en diferentes precios. En esta página, se resumen los modelos que están disponibles en las diversas APIs y se brinda orientación sobre qué modelos elegir por caso de uso.

Para obtener más información sobre todos los modelos y las APIs de IA en Vertex AI, consulta Explora los modelos de IA en Model Garden.

Modelos de Gemini

En la siguiente tabla, se resumen los modelos disponibles en la API de Gemini. Para obtener más información sobre los detalles de la API, consulta la referencia de la API de Gemini.

Para explorar un modelo en la consola de Google Cloud, selecciona su tarjeta de modelo en Model Garden.

Modelo	Entradas	Resultados	Caso práctico	Prueba el modelo
Gemini 2.0 Flash `gemini-2.0-flash`	Texto, código, imágenes, audio, video, video con audio, PDF	Texto, audio (versión preliminar privada) e imágenes (versión preliminar privada)	Modelo de caballo de batalla para todas las tareas diarias. Rendimiento general sólido y compatibilidad con la API de transmisión en vivo en tiempo real.	Prueba Gemini 2.0 Flash
Versión preliminar de Gemini 2.5 Pro `gemini-2.5-pro-preview-03-25`	Texto, imágenes, video, audio y PDF	Texto	Es el modelo de Gemini de razonamiento más avanzado, especialmente para la comprensión multimodal, la programación y el conocimiento del mundo.	Prueba la versión preliminar de Gemini 2.5 Pro
Gemini 2.0 Flash-Lite `gemini-2.0-flash-lite`	Texto, imágenes, video, audio y PDF	Texto	Nuestra oferta rentable para admitir una alta capacidad de procesamiento.	Prueba Gemini 2.0 Flash-Lite
Gemini 2.0 Flash Thinking `gemini-2.0-flash-thinking-exp-01-21`	Texto, imágenes	Texto	Proporciona capacidades de razonamiento más sólidas y, además, incluye el proceso de pensamiento en las respuestas.	Prueba Gemini 2.0 Flash Thinking

En la siguiente información, se proporcionan detalles sobre cada modelo de Gemini.

Gemini 2.0 Flash

La nueva generación de nuestros modelos Gemini Flash. Gemini 2.0 Flash ofrece una velocidad y compatibilidad superiores para una gama más amplia de funciones, como la transmisión bidireccional con nuestra API de Multimodal Live, la generación de respuestas multimodales y el uso de herramientas integradas.

Funciones

Función	Disponibilidad
Fundamentación con la Búsqueda de Google
Ejecución de código
Ajuste
Instrucción del sistema	Consulta Usa las instrucciones del sistema.
Generación controlada
Capacidad de procesamiento aprovisionada	Consulta Modelos compatibles.
Predicción por lotes
Llamada a función

Especificaciones

Especificación	Valor
Cantidad máxima de tokens de entrada	1,048,576
Cantidad máxima de tokens de salida	8,192
Datos de entrenamiento	Hasta junio de 2024

Versión preliminar de Gemini 2.5 Pro

La versión preliminar de Gemini 2.5 Pro es nuestro modelo más sólido para la comprensión multimodal, la programación y el conocimiento del mundo. Tiene una ventana de contexto de 1 millón. La versión preliminar de Gemini 2.5 Pro está disponible como modelo preliminar en Vertex AI y es una ruta de actualización para los usuarios de 1.5 Pro que desean obtener una mejor calidad o que invierten especialmente en el contexto y el código largos.

Funciones

Función	Disponibilidad
Fundamentación con la Búsqueda de Google
Ejecución de código
Ajuste
Instrucción del sistema	Consulta Usa las instrucciones del sistema.
Generación controlada
Capacidad de procesamiento aprovisionada	Consulta Modelos compatibles.

Especificaciones

Especificación	Valor
Cantidad máxima de tokens de entrada	1,048,576
Cantidad máxima de tokens de salida	64,000
Datos de entrenamiento	Hasta enero de 2025
Límite de cuota	20 consultas por minuto (QPM)

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite es nuestro modelo de Flash más rápido y rentable. Proporciona mejor calidad y velocidad.

Funciones

Función	Disponibilidad
Fundamentación con la Búsqueda de Google
Ejecución de código
Ajuste
Instrucción del sistema	Consulta Usa las instrucciones del sistema.
Generación controlada
Capacidad de procesamiento aprovisionada	Consulta Modelos compatibles.
Predicción por lotes
Llamada a función

Especificaciones

Especificación	Valor
Cantidad máxima de tokens de entrada	1,048,576
Cantidad máxima de tokens de salida	8,192
Datos de entrenamiento	Hasta enero de 2025

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash Thinking es un modelo de procesamiento experimental durante el tiempo de prueba que está entrenado para generar el "proceso de pensamiento" que atraviesa el modelo como parte de su respuesta. Como resultado, Flash Thinking es capaz de tener capacidades de razonamiento más sólidas en sus respuestas que el modelo base de Gemini 2.0 Flash. Para obtener más información, consulta la documentación de Gemini 2.0 Flash Thinking.

Funciones

Función	Disponibilidad
Fundamentación con la Búsqueda de Google
Ajuste
Instrucción del sistema	Consulta Usa las instrucciones del sistema.
Generación controlada
Capacidad de procesamiento aprovisionada	Consulta Modelos compatibles.

Especificaciones

Especificación	Valor
Cantidad máxima de tokens de entrada	1,048,576
Cantidad máxima de tokens de salida	65,536
Datos de entrenamiento	Hasta mayo de 2024

Compatibilidad con idiomas de Gemini

Todos los modelos de Gemini pueden entender y responder en los siguientes idiomas:

Árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), neerlandés (nl), español (es), estonio (et), finlandés (fi), francés (fr), alemán (de), griego (el), hebreo (iw), hindi (hi), húngaro (hu), indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), lituano (lt), noruego (no), polaco (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), sueco (sv), tailandés (th), turco (tr), ucraniano (uk) y vietnamita (vi)
Los modelos Gemini 2.0 Flash, Gemini 1.5 Pro y Gemini 1.5 Flash pueden entender y responder en los siguientes idiomas adicionales:

Afrikaans (af), Amharic (am), Assamese (as), Azerbaijani (az), Belarusian (be), Bosnian (bs), Catalan (ca), Cebuano (ceb), Corsican (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persian (fa), Filipino (Tagalog) (fil), Frisian (fy), Irish (ga), Scots Gaelic (gd), Galician (gl), Gujarati (gu), Hausa (ha), Hawaiian (haw), Hmong (hmn), Haitian Creole (ht), Armenian (hy), Igbo (ig), Icelandic (is), Javanese (jv), Georgian (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdish (ku), Kyrgyz (ky), Latin (la), Luxembourgish (lb), Lao (lo), Malagasy (mg), Maori (mi), Macedonian (mk), Malayalam (ml), Mongolian (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Malay (ms), Maltese (mt), Myanmar (Burmese) (my), Nepali (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoan (sm), Shona (sn), Somali (so), Albanian (sq), Sesotho (st), Sundanese (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)

Modelos de Gemma

En la siguiente tabla, se resumen los modelos de Gemma.

Modelo	Entradas	Resultados	Caso práctico	Prueba el modelo
Gemma 3 Detalles del modelo	Texto, imágenes	Texto	Un modelo abierto pequeño y liviano que admite tareas de generación de texto y comprensión de imágenes, como la respuesta a preguntas, el resumen y el razonamiento. Se puede implementar en entornos con recursos limitados.	Prueba Gemma 3
Gemma 2 Detalles del modelo	Texto	Texto	Un modelo de texto abierto pequeño y liviano que admite la generación, resumen y extracción de texto. Se puede implementar en entornos con recursos limitados.	Prueba Gemma 2
Gemma Detalles del modelo	Texto	Texto	Un modelo de texto abierto pequeño y liviano que admite la generación, resumen y extracción de texto. Se puede implementar en entornos con recursos limitados.	Probar Gemma
CodeGemma Detalles del modelo	Texto, código, PDF	Texto	Una colección de modelos de código abierto ligeros compilados sobre Gemma. Ideal para la generación y finalización de código.	Prueba CodeGemma
PaliGemma 2 Detalles del modelo	Texto, imágenes	Texto	Un modelo ligero de lenguaje de visión (VLM). Ideal para tareas de leyenda de imágenes y tareas visuales de preguntas y respuestas.	Prueba PaliGemma 2
PaliGemma Detalles del modelo	Texto, imágenes	Texto	Un modelo ligero de lenguaje de visión (VLM). Ideal para tareas de leyenda de imágenes y tareas visuales de preguntas y respuestas.	Prueba PaliGemma
ShieldGemma 2 Detalles del modelo	Texto, imágenes	Texto	Un modelo ligero de lenguaje de visión (VLM) que verifica la seguridad de las imágenes sintéticas y naturales para ayudarte a crear modelos y conjuntos de datos sólidos.	Prueba ShieldGemma 2
TxGemma Detalles del modelo	Texto	Texto	Una colección de modelos de lenguaje abiertos y ligeros para acelerar el desarrollo de terapias. Es mejor para las tareas de predicción terapéutica, incluidas las tareas de clasificación, regresión o generación, y razonamiento.	Probar TxGemma

Compatibilidad de Gemma con idiomas

Gemma y Gemma 2 solo admiten el idioma inglés. Gemma 3 proporciona compatibilidad con varios idiomas en más de 140 idiomas.

Modelos de embeddings

En la siguiente tabla, se resumen los modelos disponibles en la API de incorporaciones:

Nombre del modelo	Descripción	Especificaciones	Prueba el modelo
Embeddings para texto (`text-embedding-004, text-embedding-005`) Detalles del modelo	Muestra embeddings para entradas de texto en inglés. Admite el ajuste supervisado de embeddings para modelos de texto, solo en inglés.	Entrada máxima de tokens: 2,048. Dimensiones de embeddings: `text-embedding-004, text-embedding-005`: <=768. Otros: 768.	Prueba Embeddings para texto
Incorporaciones para texto multilingüe (`text-multilingual-embedding-002`) Detalles del modelo	Muestra embeddings para entradas de texto de más de 100 idiomas Admite el ajuste supervisado del modelo `text-multilingual-embedding-002`. Admite más de 100 idiomas.	Entrada máxima de tokens: 2,048. Dimensiones de embeddings: `text-multilingual-embedding-002`: <=768. Otros: 768.	Prueba Embeddings para texto multilingüe
Embeddings para multimodales `(multimodalembedding)` Detalles del modelo	Muestra incorporaciones para entradas de texto, imagen y video a fin de comparar contenido entre diferentes modelos. Convierte texto, imagen y video en el mismo espacio vectorial. El video solo admite 1,408 dimensiones. Solo en inglés.	Entrada máxima de tokens: 32, Tamaño máximo de la imagen: 20 MB. Duración máxima del video: dos minutos. Dimensión de embeddings: 128, 256, 512 o 1,408 para entrada de texto + imagen; 1,408 para entrada de video.	Prueba Embeddings para multimodales
Incorporaciones para texto (inglés, multilingüe, código) (`text-embedding-large-exp-03-07`) Detalles del modelo	Muestra embeddings para entradas de texto en más de 100 idiomas, así como código Python y Java. Este es un modelo experimental. Los modelos experimentales no siguen el plan de ciclo de vida del modelo y el esquema de control de versiones estándar de Google, y un modelo se puede intercambiar por otro sin aviso previo. Además, no garantizamos que un modelo experimental se convierta en un modelo estable en el futuro.	Cantidad máxima de tokens de entrada: 8,192 Dimensiones de embeddings: 3,072	Prueba Embeddings para texto extenso

Compatibilidad con idiomas de embeddings

Los modelos de incorporación multilingües de texto admiten los siguientes idiomas:
afrikaans, albanés, amárico, árabe, armenio, azerbaiyano, vasco, bielorruso, bengalí, búlgaro, birmano, catalán, cebuano, chichewa, chino, corso, checo, danés, neerlandés, inglés, esperanto, estonio, filipino, finés, francés, gallego, georgiano, alemán, griego, gujarati, criollo haitiano, hausa, hawaiano, hebreo, hindi, hmong, húngaro, islandés, igbo, indonesio, irlandés, italiano, japonés, javanés, canarés, kazajo, jemer, coreano, kurdo, kirguís, lao, latín, letón, lituano, luxemburgués, macedonio, malgache, malayo, malayalam, maltés, maorí, marathi, mongol, nepalí, noruego, pastún, persa, polaco, portugués, punyabí, rumano, ruso, samoano, gaélico escocés, serbio, shona, sindhi, cingalés, eslovaco, esloveno, somalí, sotho, español, sundanés, swahili, sueco, tayiko, tamil, telugu, tailandés, turco, ucraniano, urdu, uzbeko, vietnamita, galés, frisón occidental, xhosa, yiddish, yoruba, zulú.

Modelo de Imagen

En la siguiente tabla, se resumen los modelos disponibles en la API de Imagen:

Modelo	Entradas	Resultados	Caso práctico	Prueba el modelo
Imagen 3 (`imagen-3.0-generate-001`, `imagen-3.0-fast-generate-001`) Imagen 2 (`imagegeneration@006`, `imagegeneration@005`) Imagen (`imagegeneration@002`) Detalles del modelo	Texto	Imágenes	Este modelo admite la generación y edición de imágenes para crear imágenes de alta calidad en segundos. Esto incluye la generación de imágenes con el aprendizaje sin ejemplos.	Prueba Imagen para la generación de imágenes
Imagen 3 (Edición y personalización) (`imagen-3.0-capability-001`) Imagen 2 (Edición) (`imagegeneration@006`) Imagen (Edición) `imagegeneration@002`) Detalles del modelo	Texto e imágenes	Imágenes	Este modelo admite la edición de imágenes y la generación de imágenes personalizadas (pocas fotos) para crear imágenes de alta calidad en segundos. La función de edición admite la restauración (inserción o eliminación de objetos), el retoque y la edición de imágenes de productos. La personalización admite el aprendizaje en pocos intentos, lo que te permite proporcionar imágenes de referencia para guiar la generación de imágenes de salida. Este modelo admite los siguientes tipos de personalización: sujeto (producto, persona y mascota), estilo, personalización controlada (escritos o bordes definidos) y personalización de instrucciones (transferencia de estilo).	Cómo probar Imagen para editar y personalizar

Compatibilidad de Imagen 3 con idiomas

Imagen 3 admite los siguientes idiomas:
Inglés, chino, hindi, japonés, coreano, portugués y español.

Modelo de finalización de código

En la siguiente tabla, se resumen los modelos disponibles en las APIs de Codey:

Modelo	Entradas	Resultados	Caso práctico	Prueba el modelo
Codey para la finalización de código (`code-gecko`) Detalles del modelo	Código en idiomas compatibles	Código en idiomas compatibles	Un modelo ajustado para sugerir la finalización del código según el contexto en el código que se escribe.	Prueba Codey para la finalización de código

Compatibilidad con el lenguaje del modelo de finalización de código

El modelo de finalización de código admite el idioma inglés.

Modelos de MedLM

En la siguiente tabla, se resumen los modelos disponibles en la API de MedLM:

Nombre del modelo	Descripción	Especificaciones	Prueba el modelo
MedLM-medium (`medlm-medium`) Detalles del modelo	Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la tecnología de Google Research. Este modelo ayuda a los profesionales de la salud con tareas de preguntas y respuestas médicas, y tareas de resumen para documentos médicos y de atención de la salud. Proporciona una mejor capacidad de procesamiento y, además, incluye datos más recientes que el modelo `medlm-large`.	Cantidad máxima de tokens (entrada + salida): 32,768 Tokens de resultado máximo: 8192	Prueba MedLM-medium
MedLM-large (`medlm-large`) Detalles del modelo	Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la tecnología de Google Research. Este modelo ayuda a los profesionales de la salud con tareas de preguntas y respuestas médicas, y tareas de resumen para documentos médicos y de atención de la salud.	Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 1,024	Prueba MedLM-large

Compatibilidad con la capacidad de procesamiento aprovisionada de MedLM

MedLM-medium y MedLM-large admiten la capacidad de procesamiento aprovisionada. Consulta Modelos compatibles.

Compatibilidad con idiomas de MedLM

El modelo MedLM admite el idioma en inglés.

Ubicaciones

Para obtener una lista de las ubicaciones en las que están disponibles estos modelos, consulta IA generativa en ubicaciones de Vertex AI.

Versiones del modelo

Para obtener información sobre las versiones de modelos, consulta Versiones de modelos.

Explora todos los modelos en Model Garden

Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar e implementar modelos de la propiedad de Google y elegir modelos y recursos de OSS. Para explorar los modelos y las APIs de IA que están disponibles en Vertex AI, ve a Model Garden en la consola de Google Cloud.

Ir a Model Garden

Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta Explora los modelos de IA en Model Garden.

Próximos pasos

Prueba un instructivo de guía de inicio rápido con Vertex AI Studio o la API de Vertex AI.
Obtén información sobre cómo probar los mensajes de texto.
Obtén información para probar las instrucciones de chat.
Explora modelos previamente entrenados en Model Garden.
Obtén información para ajustar un modelo de base.
Obtén información sobre las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.
Obtén información para controlar el acceso a modelos específicos en Model Garden con una política de la organización de Model Garden.

Modelos de Google Organiza tus páginas con colecciones Guarda y categoriza el contenido según tus preferencias.

Modelos de Gemini

Gemini 2.0 Flash

Funciones

Especificaciones

Versión preliminar de Gemini 2.5 Pro

Funciones

Especificaciones

Gemini 2.0 Flash-Lite

Funciones

Especificaciones

Gemini 2.0 Flash Thinking

Funciones

Especificaciones

Compatibilidad con idiomas de Gemini

Modelos de Gemma

Compatibilidad de Gemma con idiomas

Modelos de embeddings

Compatibilidad con idiomas de embeddings

Modelo de Imagen

Compatibilidad de Imagen 3 con idiomas

Modelo de finalización de código

Compatibilidad con el lenguaje del modelo de finalización de código

Modelos de MedLM

Compatibilidad con la capacidad de procesamiento aprovisionada de MedLM

Compatibilidad con idiomas de MedLM

Ubicaciones

Versiones del modelo

Explora todos los modelos en Model Garden

Próximos pasos

Modelos de Google