Prueba los modelos de Gemini 1.5, nuestros modelos multimodales más recientes en Vertex AI y observa lo que puedes compilar con una ventana de contexto de 1 millón de tokens. Prueba los modelos de Gemini 1.5, nuestros modelos multimodales más recientes en Vertex AI y observa lo que puedes compilar con una ventana de contexto de 1 millón de tokens.

Implementa modelos de IA generativa

Algunos modelos de IA generativa, como Gemini, tienen APIs administradas y están listos para aceptar mensajes sin implementación. Para obtener una lista de modelos con APIs administradas, consulta APIs de modelos básicos.

Otros modelos de IA generativa deben implementarse en un extremo antes de que estén listos para aceptar instrucciones. Se deben implementar dos tipos de modelos generativos:

Modelos ajustados, que creas mediante el ajuste de un modelo de base compatible con tus propios datos.
Modelos generativos que no tienen APIs administradas. En Model Garden, estos son modelos que no están etiquetados como API disponible o Vertex AI Studio, por ejemplo, Llama 2.

Cuando implementas un modelo en un extremo, Vertex AI asocia los recursos de procesamiento y un URI con el modelo para que pueda entregar solicitudes de instrucciones.

Implementa un modelo ajustado

Los modelos ajustados se suben de forma automática a Vertex AI Model Registry y se implementan en un endpoint de Vertex AI. Los modelos ajustados no aparecen en Model Garden porque se ajustan con tus datos. Para obtener más información, consulta Descripción general del ajuste de modelos.

Una vez que el extremo esté activo, estará listo para aceptar solicitudes de mensajes en su URI. El formato de la llamada a la API para un modelo ajustado es el mismo que el modelo de base desde el que se ajusta. Por ejemplo, si tu modelo está ajustado en Gemini, tu solicitud de mensaje debe seguir la API de Gemini.

Asegúrate de enviar solicitudes de mensaje al extremo de tu modelo ajustado en lugar de a la API administrada. El extremo del modelo ajustado tiene el siguiente formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Para obtener el ID de extremo, consulta Visualiza o administra un extremo.

Para obtener más información sobre el formato de solicitudes de instrucciones, consulta la referencia de la API de modelos.

Implementa un modelo generativo que no tenga una API administrada

Para usar un modelo de Model Garden que no tenga una API administrada, debes subir el modelo a Model Registry e implementarlo en un extremo antes de que puedas enviar solicitudes de instrucciones. Esto es similar a subir e implementar un modelo entrenado personalizado para la predicción en línea en Vertex AI.

Para implementar uno de estos modelos, ve a Model Garden y selecciona el modelo que deseas implementar.

Ir a Model Garden

En cada tarjeta de modelo, se muestran una o más de las siguientes opciones de implementación:

Botón Implementar: La mayoría de los modelos generativos de Model Garden tienen un botón Implementar que te guía a través de la implementación en Vertex AI. Si no ves el botón Implementar, ve a la siguiente viñeta.

Para la implementación en Vertex AI, también puedes elegir entre Implementación con un clic con configuración recomendada o Avanzada para obtener controles detallados sobre cómo el modelo se guarda en Model Registry y se implementa en un extremo de Vertex AI.

Nota: Algunos modelos también admiten la implementación en Google Kubernetes Engine, que es una solución no administrada que te proporciona aún más control. Para obtener más información, consulta Entrega un modelo con una sola GPU en GKE.
Botón Abrir notebook: Esta opción abre un notebook de Jupyter. Cada tarjeta de modelo muestra esta opción. El notebook de Jupyter incluye instrucciones y código de muestra para subir el modelo a Model Registry, implementar el modelo en un extremo y enviar una solicitud de instrucción.

Una vez que se complete la implementación y el extremo esté activo, estará listo para aceptar solicitudes de solicitud en su URI. El formato de la API es predict y el formato de cada instance en el cuerpo de la solicitud depende del modelo. Para obtener más información, consulta los siguientes recursos:

Asegúrate de tener suficiente cuota de máquina para implementar tu modelo. Para ver tu cuota actual o solicitar más cuota, ve a la página Cuotas en la consola de Google Cloud.

Ir a Cuotas

Luego, filtra por el nombre de cuota Custom Model Serving para ver las cuotas de la predicción en línea. Para obtener más información, consulta Visualiza y administra cuotas.

Ve o administra un modelo

Para los modelos ajustados, puedes ver el modelo y su trabajo de ajuste en la página Ajustar y sintetizar en la consola de Google Cloud.

Ir a Ajustar y sintetizar

También puedes ver y administrar todos los modelos subidos en Model Registry.

Ir al registro de modelos

En Model Registry, un modelo ajustado se clasifica como un Modelo grande y tiene etiquetas que especifican el modelo de base y el trabajo de canalización o ajuste que se usó para el ajuste.

Los modelos que se implementen con el botón Implementar indicarán Model Garden como Source. Ten en cuenta que, si el modelo se actualiza en Model Garden, no se actualiza el modelo que subiste en Model Registry.

Para obtener más información, consulta Introducción a Vertex AI Model Registry.

Ve o administra un extremo

Para ver y administrar tu extremo, ve a la página Predicción en línea de Vertex AI. De forma predeterminada, el nombre del extremo es el mismo que el nombre del modelo.

Ir a Predicción en línea

Para obtener más información, consulta Implementa un modelo en un extremo.

Precios

Para los modelos ajustados, se te factura por token a la misma tarifa que el modelo de base desde el que se ajusta tu modelo. No hay costo para el extremo, ya que el ajuste se implementa como un adaptador pequeño sobre el modelo de base. Para obtener más información, consulta los precios de IA generativa en Vertex AI.

En el caso de los modelos sin APIs administradas, se te factura por las horas de máquina que usa tu extremo con la misma tarifa que las predicciones en línea de Vertex AI. No se te cobrará por token. Para obtener más información, consulta los precios de las predicciones en Vertex AI.