Información del modelo

Vertex AI cuenta con una lista creciente de modelos de base que puedes probar, implementar y personalizar para usar en tus aplicaciones basadas en IA. Los modelos de base se ajustan para casos de uso específicos y se ofrecen en diferentes precios. En esta página, se resumen los modelos que están disponibles en las diversas APIs y se brinda orientación sobre qué modelos elegir por caso de uso.

Para obtener más información sobre todos los modelos y las APIs de IA en Vertex AI, consulta Explora los modelos y las APIs de IA.

APIs de modelos de base

Vertex AI tiene las siguientes APIs de modelos de base:

  • API de Gemini (datos, texto, código y chat multimodales)
  • API de PaLM (texto, chat e incorporaciones)
  • APIs de Codey (generación de código, chat de código y finalización de código)
  • API de Imagen (generación de imágenes, edición de imágenes, leyendas de imágenes, respuesta visual de preguntas e incorporación multimodal)

Modelos de la API de Gemini

En la siguiente tabla, se resumen los modelos disponibles en la API de Gemini:

Nombre del modelo Descripción Propiedades del modelo Compatibilidad con los ajustes
Gemini 1.0 Pro
(gemini-1.0-pro)
Se diseñó para controlar tareas de lenguaje natural, chat de texto y código de varios turnos, y generación de código. Usa Gemini 1.0 Pro para las instrucciones que solo contengan texto. Cantidad máxima de tokens totales (entrada y salida): 32,760
Cantidad máxima de tokens de salida 8,192
Datos de entrenamiento: hasta febrero de 2023
Supervisado: No
RLHF: No
Destilación: No
Gemini 1.0 Pro Vision
(gemini-1.0-pro-vision)
Modelo multimodal que admite agregar imágenes y video en instrucciones de texto o de chat para una respuesta de texto o código. Usa las instrucciones multimodales de Gemini 1.0 Pro Vision. Cantidad máxima de tokens totales (entrada y salida): 16,384
Cantidad máxima de tokens de salida: 2,048
Tamaño máximo de imagen: sin límite
Cantidad máxima de imágenes por instrucción: 16
Duración máxima de video: 2 minutos
Cantidad máxima de videos por instrucción: 1
Datos de entrenamiento: hasta febrero de 2023
Supervisado: No
RLHF: No
Destilación: No
Gemini 1.0 Ultra (DG con lista de entidades permitidas) El modelo multimodal más capaz de Google, optimizado para tareas complejas, incluidas instrucciones, código y razonamiento, y compatible con varios idiomas. Gemini 1.0 Ultra tiene disponibilidad general (DG) para un conjunto selecto de clientes. Cantidad máxima de tokens de entrada: 8,192
Cantidad máxima de tokens de salida: 2,048
Supervisado: No
RLHF: No
Destilación: No
Gemini 1.0 Ultra Vision (DG con lista de entidades permitidas) El modelo de visión multimodal más capaz de Google, optimizado para admitir texto, imágenes, videos y chat de varios turnos. Gemini 1.0 Ultra Vision tiene disponibilidad general (DG) para un conjunto selecto de clientes. Cantidad máxima de tokens de entrada: 8,192
Cantidad máxima de tokens de salida: 2,048
Supervisado: No
RLHF: No
Destilación: No
Gemini 1.5 Pro (vista previa privada) Es el modelo multimodal de tamaño mediano de Google, optimizado para escalar en una amplia gama de tareas. Gemini 1.5 Pro admite la comprensión del contexto a largo plazo con hasta 1 millón de tokens. Cantidad máxima de tokens de entrada: 1,000,000
Cantidad máxima de tokens de salida: 8,192
Cantidad máxima de imágenes: 300
Cantidad máxima de fotogramas de video: 3,800
Supervisado: No
RLHF: No
Destilación: No

Modelos de API de PaLM

En la siguiente tabla, se resumen los modelos disponibles en la API de PaLM:

Nombre del modelo Descripción Propiedades del modelo Compatibilidad con los ajustes
PaLM 2 for Text
(text-bison)
Es preciso para seguir instrucciones de lenguaje natural y es adecuado para una variedad de tareas de lenguaje, como la clasificación, el resumen y la extracción. Cantidad máxima de tokens de entrada: 8192
Cantidad máxima de tokens de salida: 1024
Datos de entrenamiento: hasta febrero de 2023
Supervisado:
RLHF:
Destilación: No
PaLM 2 para texto. (text-unicorn) El modelo de texto más avanzado de la familia de modelos de PaLM para usar con tareas complejas de lenguaje natural. Cantidad máxima de tokens de entrada: 8192
Cantidad máxima de tokens de salida: 1024
Datos de entrenamiento: hasta febrero de 2023
Supervisado: No
RLHF: No
Destilación: (Vista previa)
PaLM 2 for Text 32,000
(text-bison-32k)
Se ajustó para seguir las instrucciones de lenguaje natural y es adecuado para una variedad de tareas de lenguaje. Máximo de tokens (entrada + salida): 32,768
Máximo de tokens de salida: 8192
Datos de entrenamiento: hasta agosto de 2023
Supervisado:
RLHF: No
Destilación: No
PaLM 2 for Chat
(chat-bison)
Ajustado para casos de uso de conversaciones de varios turnos. Máximo de tokens de entrada: 8192
Cantidad máxima de tokens de salida: 2048
Datos de entrenamiento: hasta febrero de 2023
turnos máximos: 2500
Supervisado:
RLHF: No
Destilación: No
PaLM 2 for Chat 32,000
(chat-bison-32k)
Ajustado para casos de uso de conversaciones de varios turnos. Máximo de tokens (entrada + salida): 32,768
Máximo de tokens de salida: 8192
Datos de entrenamiento: hasta agosto de 2023
Cantidad máxima de turnos: 2500
Supervisado:
RLHF: No
Destilación: No
Incorporaciones para texto
(textembedding-gecko)
Muestra las incorporaciones del modelo para las entradas de texto. 3,072 tokens de entrada e genera incorporaciones de vector de 768 dimensiones. Supervisado:
RLHF: No
Destilación: No
Incorporaciones para texto multilingüe
(textembedding-gecko-multilingual)
Muestra las incorporaciones del modelo para las entradas de texto que admiten más de 100 idiomas 3,072 tokens de entrada e genera incorporaciones de vector de 768 dimensiones. Supervisado: (vista previa)
RLHF: No
Destilación: No

Modelos de APIs de Codey

En la siguiente tabla, se resumen los modelos disponibles en las APIs de Codey:

Nombre del modelo Descripción Propiedades del modelo Compatibilidad con los ajustes
Codey para generación de código
(code-bison)
Un modelo ajustado para generar código en función de una descripción de lenguaje natural del código deseado. Por ejemplo, puede generar una prueba de unidades para una función. Cantidad máxima de tokens de entrada: 6144
Cantidad máxima de tokens de salida: 1024
Supervisado:
RLHF: No
Destilación: No
Codey para la generación de códigos 32,000
(code-bison-32k)
Un modelo ajustado para generar código en función de una descripción de lenguaje natural del código deseado. Por ejemplo, puede generar una prueba de unidades para una función. Cantidad máxima de tokens (entrada + salida): 32,768
Tokens de resultado máximo: 8192
Supervisado:
RLHF: No
Destilación: No
Codey for Code Chat
(codechat-bison)
Un modelo ajustado para las conversaciones de chatbot que ayudan con las preguntas relacionadas con el código. Cantidad máxima de tokens de entrada: 6144
Cantidad máxima de tokens de salida: 1024
Supervisado:
RLHF: No
Destilación: No
Codey for Code Chat 32,000
(codechat-bison-32k)
Un modelo ajustado para las conversaciones de chatbot que ayudan con las preguntas relacionadas con el código. Cantidad máxima de tokens (entrada + salida): 32,768
Tokens de resultado máximo: 8192
Supervisado:
RLHF: No
Destilación: No
Codey para completar código
(code-gecko)
Un modelo ajustado para sugerir la finalización del código según el contexto en el código que se escribe. Cantidad máxima de tokens de entrada: 2048
Cantidad máxima de tokens de salida: 64
Supervisado: No
RLHF: No
Destilación: No

Modelos de API de Image

En la siguiente tabla, se resumen los modelos disponibles en la API de Imagen:

Nombre del modelo Descripción Propiedades del modelo Compatibilidad con los ajustes
Imagen para la generación de imágenes
(imagegeneration)
Este modelo admite la generación de imágenes y puede crear elementos visuales de alta calidad en segundos. Cantidad máxima de solicitudes por minuto por proyecto: 100
Imágenes máximas generadas: 8
Imagen base máxima (edición/aumento vertical): 10 MB
Resolución de imagen generada: 1024 x 1024 píxeles
Supervisado: No
RLHF: No
Incorporaciones para multimodales
(multimodalembedding)
Este modelo genera vectores basados en la entrada que proporcionas, que pueden incluir una combinación de imagen y texto. Cantidad máxima de solicitudes por minuto por proyecto: 120
Longitud máxima de texto: 32 tokens
Inglés
Tamaño máximo de imagen: 20 MB
Supervisado: No
RLHF: No
Creación de leyendas de imágenes
(imagetext)
El modelo que admite la leyenda de imágenes. Este modelo genera un subtítulo desde una imagen que proporcionas según el idioma que especifiques. Cantidad máxima de solicitudes por minuto por proyecto: 500
Idiomas: inglés, francés, alemán, italiano y español
Tamaño máximo de la imagen: 10 MB
Cantidad máxima de subtítulos: 3
Supervisado: No
RLHF: No
Búsqueda de respuestas visuales - VQA
(imagetext)
Un modelo que admite preguntas y respuestas de imágenes. Cantidad máxima de solicitudes por minuto por proyecto: 500
Idiomas: inglés
Tamaño máximo de la imagen: 10 MB
Cantidad máxima de respuestas: 3
Supervisado: No
RLHF: No

Modelos de API de MedLM

En la siguiente tabla, se resumen los modelos disponibles en la API de MedLM:

Nombre del modelo Descripción Propiedades del modelo Compatibilidad con los ajustes
MedLM-medium (medlm-medium) Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la tecnología de Google Research. Estos modelos ayudan a los profesionales de la salud a responder preguntas médicas, y a resumir los documentos médicos y de atención de la salud. Máximo de tokens (entrada + salida): 32,768
Máximo de tokens de salida: 8192
Idiomas: inglés
Supervisado: No
RLHF: No
MedLM-large (medlm-large) Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la tecnología de Google Research. Estos modelos ayudan a los profesionales de la salud a responder preguntas médicas, y a resumir los documentos médicos y de atención de la salud. Tokens de entrada máximos: 8,192
Tokens de salida máximos: 1,024
Idiomas: inglés
Supervisado: No
RLHF: No

Idiomas admitidos

La API de PaLM de Vertex AI y la API de Gemini de Vertex AI tienen disponibilidad general (DG) para los siguientes idiomas:

  • Árabe (ar)
  • Bengalí (bn)
  • Búlgaro (bg)
  • Chino simplificado y tradicional (zh)
  • Croata (hr)
  • Checo (cs)
  • Danés (da)
  • Neerlandés (nl)
  • Inglés (en)
  • Estonio (et)
  • Finés (fi)
  • Francés (fr)
  • Alemán (de)
  • Griego (el)
  • Hebreo (iw)
  • Hindi (hi)
  • Húngaro (hu)
  • Indonesio (id)
  • Italiano (it)
  • Japonés (ja)
  • Coreano (ko)
  • Letón (lv)
  • Lituano (lt)
  • Noruego (no)
  • Polaco (pl)
  • Portugués (pt)
  • Rumano (ro)
  • Ruso (ru)
  • Serbio (sr)
  • Eslovaco (sk)
  • Esloveno (sl)
  • Español (es)
  • Suajili (sw)
  • Sueco (sv)
  • Tailandés (th)
  • Turco (tr)
  • Ucraniano (uk)
  • Vietnamita (vi)

Para acceder a otros lenguajes, comunícate con tu representante de Google Cloud.

Explora todos los modelos en Model Garden

Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar e implementar modelos de la propiedad de Google y elegir modelos y recursos de OSS. Para explorar los modelos y las APIs de IA que están disponibles en Vertex AI, ve a Model Garden en la consola de Google Cloud.

Ir a Model Garden

Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta Explora los modelos de IA en Model Garden.

Próximos pasos