Vertex AI cuenta con una lista creciente de modelos de base que puedes probar, implementar y personalizar para usar en tus aplicaciones basadas en IA. Los modelos de base se ajustan para casos de uso específicos y se ofrecen en diferentes precios. En esta página, se resumen los modelos que están disponibles en las diversas APIs y se brinda orientación sobre qué modelos elegir por caso de uso.
Para obtener más información sobre todos los modelos y las APIs de IA en Vertex AI, consulta Explora los modelos y las APIs de IA.
Modelos de Gemini
En la siguiente tabla, se resumen los modelos disponibles en la API de Gemini:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
Gemini 1.5 Flash ( gemini-1.5-flash ) |
Modelo multimodal diseñado para aplicaciones rentables y de gran volumen. Gemini 1.5 Flash ofrece velocidad y eficiencia para compilar aplicaciones rápidas y de bajo costo que no comprometen la calidad. | Cantidad máxima de tokens (entrada y salida): 1 M Cantidad máxima de tokens de salida: 8,192 Tamaño máximo de la imagen sin formato: 20 MB Tamaño máximo de la imagen codificada en base64: 7 MB Cantidad máxima de imágenes por mensaje: 3,000 Duración máxima del video: 1 hora Cantidad máxima de videos por mensaje: 10 Duración máxima del audio: aproximadamente 8.4 horas Audio máximo por mensaje: 1 Tamaño máximo del PDF: 30 MB Datos de entrenamiento: hasta mayo de 2024 |
Gemini 1.5 Pro ( gemini-1.5-pro ) |
Modelo multimodal que admite agregar archivos de imagen, audio, video y PDF en instrucciones de texto o chat para una respuesta de texto o código. Gemini 1.5 Pro admite la comprensión del contexto a largo plazo con hasta 1 millón de tokens. | Cantidad máxima de tokens totales (entrada y salida): 1 millón Tokens de salida máximo: 8192 Cantidad máxima de imágenes por instrucción: 3,000 Duración máxima del video (solo fotogramas): aproximadamente una hora Duración máxima del video (fotograma y audio): aproximadamente 45 minutos Cantidad máxima de videos por instrucción: 10 Duración máxima de audio: aproximadamente 8.4 horas Audio máximo por mensaje: 1 Tamaño máximo del PDF: 30 MB Datos de entrenamiento: hasta mayo de 2024 |
Gemini 1.0 Pro ( gemini-1.0-pro ) |
El modelo con mejor rendimiento y características para una amplia gama de tareas de solo texto.
Solo admite texto como entrada. Admite el ajuste supervisado. |
Cantidad máxima de tokens totales (entrada y salida): 32,760 Cantidad máxima de tokens de salida 8,192 Datos de entrenamiento: hasta febrero de 2023 |
Gemini 1.0 Pro Vision ( gemini-1.0-pro-vision ) |
El modelo de comprensión de imágenes y videos con mejor rendimiento para manejar una amplia gama de aplicaciones.
Admite texto, imagen y video como entradas. |
Cantidad total de tokens (entrada y salida): 16,384 Cantidad máxima de tokens de salida: 2,048 Cantidad máxima de imágenes por instrucción: 16 Duración máxima del video: 2 minutos Cantidad máxima de videos por instrucción: 1 Datos de entrenamiento: hasta febrero de 2023 |
Gemini 1.0 Ultra (DG con lista de entidades permitidas) | El modelo de texto más capaz de Google, optimizado para tareas complejas, incluidas instrucciones, código y razonamiento.
Solo admite texto como entrada. |
Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 2,048 |
Gemini 1.0 Ultra Vision (DG con lista de entidades permitidas) |
El modelo de visión multimodal más capaz de Google, optimizado para admitir entradas de texto, imágenes y video conjuntas. | Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 2,048 |
Compatibilidad con idiomas de Gemini
Los modelos de Gemini admiten los siguientes idiomas:
árabe (ar), bengalí (bn), búlgaro (bg), chino simplificado y tradicional (zh), croata (hr), checo (cs), danés (da), neerlandés (nl), inglés (en), estonio (et), finés (fi), Francés (fr), Alemán (de), Griego (el), Hebreo (iw), Hindi (hi), Húngaro (hu), indonesio (id), italiano (it), japonés (ja), coreano (ko), letón (lv), lituano (lt), noruego (no), polaco (pl), portugués (pt), rumano (ro), ruso (ru), serbio (sr), eslovaco (sk), esloveno (sl), español (es), swahili (sw), sueco (sv), tailandés (th), turco (tr), ucraniano (uk), vietnamita (vi).
Modelos de embeddings
En la siguiente tabla, se resumen los modelos disponibles en la API de incorporaciones:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
Incorporaciones para texto ( ) |
Muestra embeddings para entradas de texto en inglés.
Admite el ajuste supervisado de modelos "text-embedding-gecko", solo en inglés. |
Entrada máxima de token: 3,072 (textembedding-gecko@001), 2,048 (otros). Dimensión de incorporación: text-embedding-004 : <=768 Otras: 768. |
Incorporaciones para texto multilingüe(textembedding-gecko-multilingual@001,
|
Muestra embeddings para entradas de texto de más de 100 idiomas Admite el ajuste supervisado del modelo text-multilingual-embedding-002 . Admite más de 100 idiomas |
Entrada máxima de token: 2,048 Dimensión de incorporación: text-multilingual-embedding-002 : <=768 Otros: 768. |
Incorporaciones para multimodales(multimodalembedding) |
Muestra incorporaciones para entradas de texto, imagen y video a fin de comparar contenido entre diferentes modelos.
Convierte texto, imagen y video en el mismo espacio vectorial. El video solo admite 1,408 dimensiones. Solo en inglés. |
Entrada de token máxima: 32, Tamaño máximo de la imagen: 20 MB, Duración máxima del video: dos minutos, Dimensión de incorporación: 128, 256, 512 o 1,408 para entrada de texto + imagen; 1,408 para entrada de video |
Compatibilidad con idiomas de embeddings
Los modelos de incorporación multilingües de texto admiten los siguientes idiomas:
afrikaans, albanés, amárico, árabe, armenio, azerbaiyano, vasco, bielorruso, bengalí, búlgaro, birmano, catalán, cebuano, chichewa, chino, corso, checo, danés, neerlandés, inglés, esperanto, estonio, filipino, finés, francés, gallego, georgiano, alemán, griego, gujarati, criollo haitiano, hausa, hawaiano, hebreo, hindi, hmong, húngaro, islandés, igbo, indonesio, irlandés, italiano, japonés, javanés, canarés, kazajo, jemer, coreano, kurdo, kirguís, lao, latín, letón, lituano, luxemburgués, macedonio, malgache, malayo, malayalam, maltés, maorí, marathi, mongol, nepalí, noruego, pastún, persa, polaco, portugués, punyabí, rumano, ruso, samoano, gaélico escocés, serbio, shona, sindhi, cingalés, eslovaco, esloveno, somalí, sotho, español, sundanés, swahili, sueco, tayiko, tamil, telugu, tailandés, turco, ucraniano, urdu, uzbeko, vietnamita, galés, frisón occidental, xhosa, yiddish, yoruba, zulú.
Modelo de imagen
En la siguiente tabla, se resumen los modelos disponibles en la API de Imagen:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
Imagen 2 ( imagegeneration@006) |
Este modelo admite la generación y edición de imágenes para crear imágenes de alta calidad en segundos.
La función de edición admite la eliminación y la inserción de objetos, el retoque y la edición de productos. |
Resultado máximo de la imagen: cuatro Relación de aspecto (para la generación): 1:1, 9:16, 16:9, 3:4, 4:3 Resolución: ~1,500 píxeles (varía según la relación de aspecto) |
Compatibilidad con idiomas de imagen
El modelo de Imagen admite los siguientes idiomas:
inglés, chino (simplificado), chino (tradicional), hindi, japonés, coreano, portugués y español.
Modelo de finalización de código
En la siguiente tabla, se resumen los modelos disponibles en las APIs de Codey:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
Codey para completar código ( code-gecko ) |
Un modelo ajustado para sugerir la finalización del código según el contexto en el código que se escribe. | Cantidad máxima de tokens de entrada: 2048 Cantidad máxima de tokens de salida: 64 |
Modelos de MedLM
En la siguiente tabla, se resumen los modelos disponibles en la API de MedLM:
Nombre del modelo | Descripción | Especificaciones |
---|---|---|
MedLM-medium (medlm-medium ) |
Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la
tecnología de Google Research. Este modelo ayuda a los profesionales de la salud con tareas de preguntas y respuestas médicas, y tareas de resumen para documentos médicos y de atención de la salud. Proporciona una mejor capacidad de procesamiento y, además, incluye datos más recientes que el modelo medlm-large . |
Cantidad máxima de tokens (entrada + salida): 32,768 Tokens de resultado máximo: 8192 |
MedLM-large (medlm-large ) |
Este modelo ayuda a los profesionales de la salud con tareas de preguntas y respuestas médicas, y tareas de resumen para documentos médicos y de atención de la salud. | Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 1,024 |
Versiones del modelo y ciclo de vida
Cada modelo de lenguaje de IA generativa en Vertex AI está disponible en una versión estable y una de actualización automática. Consulta los siguientes temas para obtener información acerca de cómo funciona el control de versiones de modelos con los modelos de Gemini. Para obtener información acerca de las versiones de modelos de Imagen en Vertex AI y su ciclo de vida, consulta Versiones del modelo de Imagen en Vertex AI y ciclo de vida.
Si ajustas un modelo de Gemini, el modelo ajustado comparte la misma fecha de descontinuación que el modelo base que usaste en el proceso de ajuste. Para obtener más información, consulta Descripción general del ajuste de modelos para Gemini.
Versión estable de Gemini
Una versión estable de un modelo de Gemini no cambia y sigue estando
disponible hasta su fecha de descontinuación. Consulta las tablas en
Versiones de modelos estables de Gemini disponibles en esta
página para conocer las fechas de descontinuación de los modelos de Gemini. Si usas una versión estable
después de su fecha de interrupción, debes cambiar a una versión estable
disponible más reciente. Puedes identificar la versión de un modelo estable con el
número de tres dígitos que se agrega al nombre del modelo. Por ejemplo,
gemini-1.0-pro-001
es el número de versión uno de la versión estable del
modelo Gemini 1.0 Pro.
Google lanza versiones estables con regularidad. Puedes cambiar de una versión estable a otra, siempre y cuando la otra versión siga disponible. Cuando pasas de una versión estable a una versión estable diferente, debes volver a ejecutar tus trabajos de ajuste, ya que puede haber un mensaje, un resultado y otras diferencias entre las versiones.
Para usar la versión estable de un modelo de Gemini, agrega el número de versión de tres dígitos al modelo con un guion (-
). Por ejemplo, para especificar el modelo estable gemini-1.0-pro
, que es la versión seis, agrega -006
al nombre del modelo:
https://us-central1-aiplatform.googleapis.com/v1/projects/my_project/locations/us-central1/publishers/google/models/gemini-1.0-pro-006
Versiones disponibles del modelo estable de Gemini
Las siguientes versiones de modelos estables están disponibles para los modelos de Gemini de forma general:
Modelo Flash Gemini 1.5 | Fecha de lanzamiento | Fecha de descontinuación |
---|---|---|
gemini-1.5-flash-001 | 24 de mayo de 2024 | 24 de mayo de 2025 |
Modelo Gemini 1.5 Pro | Fecha de lanzamiento | Fecha de descontinuación |
---|---|---|
gemini-1.5-pro-001 | 24 de mayo de 2024 | 24 de mayo de 2025 |
Modelo Gemini 1.0 Pro Vision | Fecha de lanzamiento | Fecha de descontinuación |
---|---|---|
gemini-1.0-pro-vision-001 | 15 de febrero de 2024 | 15 de febrero de 2025 |
Modelo Gemini 1.0 Pro | Fecha de lanzamiento | Fecha de descontinuación |
---|---|---|
gemini-1.0-pro-001 | 15 de febrero de 2024 | 15 de febrero de 2025 |
gemini-1.0-pro-002 | 9 de abril de 2024 | 9 de abril de 2025 |
Versión de Gemini actualizada automáticamente
La versión actualizada automáticamente de un modelo de Gemini hace referencia a la versión estable más reciente. Cuando se lanza una nueva versión estable, la versión actualizada automáticamente hace referencia a la versión nueva. Esto significa que si especificas la versión de actualización automática de un modelo de Gemini en tu código, se podría comportar de manera diferente y sin aviso cuando se lance la próxima versión estable. Debido a esto, usa una versión actualizada automáticamente con precaución si ajustas tu modelo.
Para usar la versión actualizada automáticamente de un modelo, no agregues nada al nombre del modelo.
Por ejemplo, a continuación, se usa la versión actualizada automáticamente del modelo gemini-1.0-pro-vision
:
https://us-central1-aiplatform.googleapis.com/v1/projects/my_project/locations/us-central1/publishers/google/models/gemini-1.0-pro-vision
Modelos de Gemini actualizados automáticamente
En la siguiente tabla, se muestran las versiones de modelo de Gemini actualizadas automáticamente y la versión estable que hace referencia a cada una.
Nombre del modelo | Nombre actualizado automáticamente | Versión estable a la que se hace referencia |
---|---|---|
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision |
gemini-1.0-pro-vision-001 |
Gemini 1.0 Pro | gemini-1.0-pro |
gemini-1.0-pro-002 |
Versión preliminar de Gemini
La versión preliminar de un modelo de Gemini es un modelo que está en vista previa y no tiene disponibilidad general (DG). Una versión preliminar de un modelo contiene una funcionalidad que no se encuentra en la versión más reciente o actualizada de forma automática de un modelo. Debido a que una versión del modelo de vista previa no es estable, no se recomienda su uso en la producción.
Cada modelo de vista previa incluye su fecha de lanzamiento como parte del nombre del modelo
que usas en tu código. El patrón de nombre que usa un modelo de vista previa es
model_name-preview-MMDD
. Por ejemplo, gemini-1.5-pro-preview-0409
es la
primera versión preliminar del
modelo Gemini 1.5 Pro y se lanzó el 9 de abril. Cuando
se lanza una nueva versión preliminar de un modelo, la versión anterior se actualiza
para que apunte a la nueva versión preliminar y está disponible hasta su fecha de
descontinuación.
Modelos de vista previa de Gemini
En la siguiente tabla, se muestran las versiones disponibles del modelo de vista previa de Gemini y la versión preliminar de cada referencia.
Nombre del modelo | Nombre de la vista previa | Fecha de descontinuación |
---|---|---|
Gemini 1.5 Flash (versión preliminar) | gemini-1.5-flash-preview-0514 |
24 de junio de 2024 |
Gemini 1.5 Pro (versión preliminar) | gemini-1.5-pro-preview-0514 |
24 de junio de 2024 |
Gemini 1.5 Pro (versión preliminar) | gemini-1.5-pro-preview-0409 (a punta a y usa
gemini-1.5-pro-preview-0514 ) |
14 de junio de 2024 |
Versiones de modelos estables de finalización de código
Las siguientes versiones de modelos estables están disponibles para los modelos de IA generativa disponibles de forma general:
Modelo de code-gecko | Fecha de lanzamiento | Fecha de descontinuación |
---|---|---|
code-gecko@002 | 6 de diciembre de 2023 | 9 de octubre de 2024 |
code-gecko@001 | 29 de junio de 2023 | 6 julio de 2024 |
Versiones de modelos estables de embeddings
Las siguientes versiones de modelos estables están disponibles para los modelos de IA generativa disponibles de forma general:
modelo de textembedding-gecko | Fecha de lanzamiento | Fecha de descontinuación |
---|---|---|
text-embedding-004 | 14 de mayo de 2024 | 14 de mayo de 2025 |
text-embedding-preview-0409 | 9 de abril de 2024 | 27 de junio de 2024 |
text-multilingual-embedding-002 | 14 de mayo de 2024 | 14 de mayo de 2025 |
text-multilingual-embedding-preview-0409 | 9 de abril de 2024 | 27 de junio de 2024 |
textembedding-gecko@003 | 12 de diciembre de 2023 | 12 de diciembre de 2024 |
textembedding-gecko-multilingual@001 | 2 de noviembre de 2023 | 12 de diciembre de 2024 |
textembedding-gecko@002 (regresado, pero compatible) |
2 de noviembre de 2023 | 9 de octubre de 2024 |
textembedding-gecko@001 | 7 de junio de 2023 | 9 de octubre de 2024 |
multimodalembedding@001 | 12 de febrero de 2024 | 12 de febrero de 2025 |
Compatibilidad con idiomas de MedLM
El modelo MedLM admite el idioma en inglés.
Explora todos los modelos en Model Garden
Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar e implementar modelos de la propiedad de Google y elegir modelos y recursos de OSS. Para explorar los modelos y las APIs de IA que están disponibles en Vertex AI, ve a Model Garden en la consola de Google Cloud.
Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta Explora los modelos de IA en Model Garden.
Próximos pasos
- Prueba un instructivo de guía de inicio rápido con Vertex AI Studio o la API de Vertex AI.
- Obtén información sobre cómo probar los mensajes de texto.
- Obtén información para probar las instrucciones de chat.
- Explora modelos previamente entrenados en Model Garden.
- Obtén información para ajustar un modelo de base.
- Obtén información sobre las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.