Vertex AI cuenta con una lista creciente de modelos de base que puedes probar, implementar y personalizar para usar en tus aplicaciones basadas en IA. Los modelos de base se ajustan para casos de uso específicos y se ofrecen en diferentes precios. En esta página, se resumen los modelos que están disponibles en las diversas APIs y se brinda orientación sobre qué modelos elegir por caso de uso.
Para obtener más información sobre todos los modelos y las APIs de IA en Vertex AI, consulta Explora los modelos y las APIs de IA.
APIs de modelos de base
Vertex AI tiene las siguientes APIs de modelos de base:
- API de Gemini (datos, texto, código y chat multimodales)
- API de PaLM (texto, chat e incorporaciones)
- APIs de Codey (generación de código, chat de código y finalización de código)
- API de Imagen (generación de imágenes, edición de imágenes, leyendas de imágenes, respuesta visual de preguntas e incorporación multimodal)
Modelos de la API de Gemini
En la siguiente tabla, se resumen los modelos disponibles en la API de Gemini:
Nombre del modelo | Descripción | Propiedades del modelo | Compatibilidad con los ajustes |
---|---|---|---|
Gemini 1.0 Pro ( gemini-1.0-pro ) |
Se diseñó para controlar tareas de lenguaje natural, chat de texto y código de varios turnos, y generación de código. Usa Gemini 1.0 Pro para las instrucciones que solo contengan texto. | Cantidad máxima de tokens totales (entrada y salida): 32,760 Cantidad máxima de tokens de salida 8,192 Datos de entrenamiento: hasta febrero de 2023 |
Supervisado: No RLHF: No Destilación: No |
Gemini 1.0 Pro Vision ( gemini-1.0-pro-vision ) |
Modelo multimodal que admite agregar imágenes y video en instrucciones de texto o de chat para una respuesta de texto o código. Usa las instrucciones multimodales de Gemini 1.0 Pro Vision. | Cantidad máxima de tokens totales (entrada y salida): 16,384 Cantidad máxima de tokens de salida: 2,048 Tamaño máximo de imagen: sin límite Cantidad máxima de imágenes por instrucción: 16 Duración máxima de video: 2 minutos Cantidad máxima de videos por instrucción: 1 Datos de entrenamiento: hasta febrero de 2023 |
Supervisado: No RLHF: No Destilación: No |
Gemini 1.0 Ultra (DG con lista de entidades permitidas) | El modelo multimodal más capaz de Google, optimizado para tareas complejas, incluidas instrucciones, código y razonamiento, y compatible con varios idiomas. Gemini 1.0 Ultra tiene disponibilidad general (DG) para un conjunto selecto de clientes. | Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 2,048 |
Supervisado: No RLHF: No Destilación: No |
Gemini 1.0 Ultra Vision (DG con lista de entidades permitidas) | El modelo de visión multimodal más capaz de Google, optimizado para admitir texto, imágenes, videos y chat de varios turnos. Gemini 1.0 Ultra Vision tiene disponibilidad general (DG) para un conjunto selecto de clientes. | Cantidad máxima de tokens de entrada: 8,192 Cantidad máxima de tokens de salida: 2,048 |
Supervisado: No RLHF: No Destilación: No |
Gemini 1.5 Pro (vista previa privada) | Es el modelo multimodal de tamaño mediano de Google, optimizado para escalar en una amplia gama de tareas. Gemini 1.5 Pro admite la comprensión del contexto a largo plazo con hasta 1 millón de tokens. | Cantidad máxima de tokens de entrada: 1,000,000 Cantidad máxima de tokens de salida: 8,192 Cantidad máxima de imágenes: 300 Cantidad máxima de fotogramas de video: 3,800 |
Supervisado: No RLHF: No Destilación: No |
Modelos de API de PaLM
En la siguiente tabla, se resumen los modelos disponibles en la API de PaLM:
Nombre del modelo | Descripción | Propiedades del modelo | Compatibilidad con los ajustes |
---|---|---|---|
PaLM 2 for Text ( text-bison ) |
Es preciso para seguir instrucciones de lenguaje natural y es adecuado para una variedad de tareas de lenguaje, como la clasificación, el resumen y la extracción. | Cantidad máxima de tokens de entrada: 8192 Cantidad máxima de tokens de salida: 1024 Datos de entrenamiento: hasta febrero de 2023 |
Supervisado: Sí RLHF: Sí Destilación: No |
PaLM 2 para texto. (text-unicorn ) |
El modelo de texto más avanzado de la familia de modelos de PaLM para usar con tareas complejas de lenguaje natural. | Cantidad máxima de tokens de entrada: 8192 Cantidad máxima de tokens de salida: 1024 Datos de entrenamiento: hasta febrero de 2023 |
Supervisado: No RLHF: No Destilación: Sí (Vista previa) |
PaLM 2 for Text 32,000 ( text-bison-32k ) |
Se ajustó para seguir las instrucciones de lenguaje natural y es adecuado para una variedad de tareas de lenguaje. | Máximo de tokens (entrada + salida): 32,768 Máximo de tokens de salida: 8192 Datos de entrenamiento: hasta agosto de 2023 |
Supervisado: Sí RLHF: No Destilación: No |
PaLM 2 for Chat ( chat-bison ) |
Ajustado para casos de uso de conversaciones de varios turnos. | Máximo de tokens de entrada: 8192 Cantidad máxima de tokens de salida: 2048 Datos de entrenamiento: hasta febrero de 2023 turnos máximos: 2500 |
Supervisado: Sí RLHF: No Destilación: No |
PaLM 2 for Chat 32,000 ( chat-bison-32k ) |
Ajustado para casos de uso de conversaciones de varios turnos. | Máximo de tokens (entrada + salida): 32,768 Máximo de tokens de salida: 8192 Datos de entrenamiento: hasta agosto de 2023 Cantidad máxima de turnos: 2500 |
Supervisado: Sí RLHF: No Destilación: No |
Incorporaciones para texto ( textembedding-gecko ) |
Muestra las incorporaciones del modelo para las entradas de texto. | 3,072 tokens de entrada e genera incorporaciones de vector de 768 dimensiones. |
Supervisado: Sí RLHF: No Destilación: No |
Incorporaciones para texto multilingüe ( textembedding-gecko-multilingual ) |
Muestra las incorporaciones del modelo para las entradas de texto que admiten más de 100 idiomas | 3,072 tokens de entrada e genera incorporaciones de vector de 768 dimensiones. |
Supervisado: Sí
(vista previa) RLHF: No Destilación: No |
Modelos de APIs de Codey
En la siguiente tabla, se resumen los modelos disponibles en las APIs de Codey:
Nombre del modelo | Descripción | Propiedades del modelo | Compatibilidad con los ajustes |
---|---|---|---|
Codey para generación de código ( code-bison ) |
Un modelo ajustado para generar código en función de una descripción de lenguaje natural del código deseado. Por ejemplo, puede generar una prueba de unidades para una función. | Cantidad máxima de tokens de entrada: 6144 Cantidad máxima de tokens de salida: 1024 |
Supervisado: Sí RLHF: No Destilación: No |
Codey para la generación de códigos 32,000 ( code-bison-32k ) |
Un modelo ajustado para generar código en función de una descripción de lenguaje natural del código deseado. Por ejemplo, puede generar una prueba de unidades para una función. | Cantidad máxima de tokens (entrada + salida): 32,768 Tokens de resultado máximo: 8192 |
Supervisado: Sí RLHF: No Destilación: No |
Codey for Code Chat ( codechat-bison ) |
Un modelo ajustado para las conversaciones de chatbot que ayudan con las preguntas relacionadas con el código. | Cantidad máxima de tokens de entrada: 6144 Cantidad máxima de tokens de salida: 1024 |
Supervisado: Sí RLHF: No Destilación: No |
Codey for Code Chat 32,000 ( codechat-bison-32k ) |
Un modelo ajustado para las conversaciones de chatbot que ayudan con las preguntas relacionadas con el código. | Cantidad máxima de tokens (entrada + salida): 32,768 Tokens de resultado máximo: 8192 |
Supervisado: Sí RLHF: No Destilación: No |
Codey para completar código ( code-gecko ) |
Un modelo ajustado para sugerir la finalización del código según el contexto en el código que se escribe. | Cantidad máxima de tokens de entrada: 2048 Cantidad máxima de tokens de salida: 64 |
Supervisado: No RLHF: No Destilación: No |
Modelos de API de Image
En la siguiente tabla, se resumen los modelos disponibles en la API de Imagen:
Nombre del modelo | Descripción | Propiedades del modelo | Compatibilidad con los ajustes |
---|---|---|---|
Imagen para la generación de imágenes ( imagegeneration ) | Este modelo admite la generación de imágenes y puede crear elementos visuales de alta calidad en segundos. | Cantidad máxima de solicitudes por minuto por proyecto: 100 Imágenes máximas generadas: 8 Imagen base máxima (edición/aumento vertical): 10 MB Resolución de imagen generada: 1024 x 1024 píxeles |
Supervisado: No RLHF: No |
Incorporaciones para multimodales ( multimodalembedding ) | Este modelo genera vectores basados en la entrada que proporcionas, que pueden incluir una combinación de imagen y texto. | Cantidad máxima de solicitudes por minuto por proyecto: 120 Longitud máxima de texto: 32 tokens Inglés Tamaño máximo de imagen: 20 MB |
Supervisado: No RLHF: No |
Creación de leyendas de imágenes ( imagetext ) | El modelo que admite la leyenda de imágenes. Este modelo genera un subtítulo desde una imagen que proporcionas según el idioma que especifiques. | Cantidad máxima de solicitudes por minuto por proyecto: 500 Idiomas: inglés, francés, alemán, italiano y español Tamaño máximo de la imagen: 10 MB Cantidad máxima de subtítulos: 3 |
Supervisado: No RLHF: No |
Búsqueda de respuestas visuales - VQA ( imagetext ) | Un modelo que admite preguntas y respuestas de imágenes. | Cantidad máxima de solicitudes por minuto por proyecto: 500 Idiomas: inglés Tamaño máximo de la imagen: 10 MB Cantidad máxima de respuestas: 3 |
Supervisado: No RLHF: No |
Modelos de API de MedLM
En la siguiente tabla, se resumen los modelos disponibles en la API de MedLM:
Nombre del modelo | Descripción | Propiedades del modelo | Compatibilidad con los ajustes |
---|---|---|---|
MedLM-medium (medlm-medium ) | Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la tecnología de Google Research. Estos modelos ayudan a los profesionales de la salud a responder preguntas médicas, y a resumir los documentos médicos y de atención de la salud. | Máximo de tokens (entrada + salida): 32,768 Máximo de tokens de salida: 8192 Idiomas: inglés |
Supervisado: No RLHF: No |
MedLM-large (medlm-large ) | Un conjunto de modelos y APIs ajustados de forma médica que cumplen la HIPAA y cuentan con la tecnología de Google Research. Estos modelos ayudan a los profesionales de la salud a responder preguntas médicas, y a resumir los documentos médicos y de atención de la salud. | Tokens de entrada máximos: 8,192 Tokens de salida máximos: 1,024 Idiomas: inglés |
Supervisado: No RLHF: No |
Idiomas admitidos
La API de PaLM de Vertex AI y la API de Gemini de Vertex AI tienen disponibilidad general (DG) para los siguientes idiomas:
- Árabe (
ar
) - Bengalí (
bn
) - Búlgaro (
bg
) - Chino simplificado y tradicional (
zh
) - Croata (
hr
) - Checo (
cs
) - Danés (
da
) - Neerlandés (
nl
) - Inglés (
en
) - Estonio (
et
) - Finés (
fi
) - Francés (
fr
) - Alemán (
de
) - Griego (
el
) - Hebreo (
iw
) - Hindi (
hi
) - Húngaro (
hu
) - Indonesio (
id
) - Italiano (
it
) - Japonés (
ja
) - Coreano (
ko
) - Letón (
lv
) - Lituano (
lt
) - Noruego (
no
) - Polaco (
pl
) - Portugués (
pt
) - Rumano (
ro
) - Ruso (
ru
) - Serbio (
sr
) - Eslovaco (
sk
) - Esloveno (
sl
) - Español (
es
) - Suajili (
sw
) - Sueco (
sv
) - Tailandés (
th
) - Turco (
tr
) - Ucraniano (
uk
) - Vietnamita (
vi
)
Para acceder a otros lenguajes, comunícate con tu representante de Google Cloud.
Explora todos los modelos en Model Garden
Model Garden es una plataforma que te ayuda a descubrir, probar, personalizar e implementar modelos de la propiedad de Google y elegir modelos y recursos de OSS. Para explorar los modelos y las APIs de IA que están disponibles en Vertex AI, ve a Model Garden en la consola de Google Cloud.
Para obtener más información sobre Model Garden, incluidos los modelos y las funciones disponibles, consulta Explora los modelos de IA en Model Garden.
Próximos pasos
- Prueba un instructivo de guía de inicio rápido con Vertex AI Studio o la API de Vertex AI.
- Obtén información sobre cómo probar los mensajes de texto.
- Obtén información para probar las instrucciones de chat.
- Explora modelos previamente entrenados en Model Garden.
- Obtén información para ajustar un modelo de base.
- Obtén información sobre las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.