Algunos modelos de IA generativa, como Gemini, tienen APIs administradas y están listos para aceptar mensajes sin implementación. Para obtener una lista de modelos con APIs administradas, consulta APIs de modelos básicos.
Otros modelos de IA generativa deben implementarse en un extremo antes de que estén listos para aceptar instrucciones. Se deben implementar dos tipos de modelos generativos:
Modelos ajustados, que creas mediante el ajuste de un modelo de base compatible con tus propios datos.
Modelos generativos que no tienen APIs administradas. En Model Garden, estos son modelos que no están etiquetados como API disponible o Vertex AI Studio, por ejemplo, Llama 2.
Cuando implementas un modelo en un extremo, Vertex AI asocia los recursos de procesamiento y un URI con el modelo para que pueda entregar solicitudes de instrucciones.
Implementa un modelo ajustado
Los modelos ajustados se suben de forma automática a Vertex AI Model Registry y se implementan en un endpoint
de Vertex AI. Los modelos ajustados no aparecen en Model Garden porque se ajustan con tus datos.
Para obtener más información, consulta Descripción general del ajuste de modelos.
Una vez que el extremo esté activo, estará listo para aceptar solicitudes de mensajes en su URI. El formato de la llamada a la API para un modelo ajustado es el mismo que el modelo de base desde el que se ajusta. Por ejemplo, si tu modelo está ajustado en Gemini, tu solicitud de mensaje debe seguir la API de Gemini.
Asegúrate de enviar solicitudes de mensaje al extremo de tu modelo ajustado en lugar de a la API administrada. El extremo del modelo ajustado tiene el siguiente formato:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Para obtener el ID de extremo, consulta Visualiza o administra un extremo.
Para obtener más información sobre el formato de solicitudes de instrucciones, consulta la referencia de la API de modelos.
Implementa un modelo generativo que no tenga una API administrada
Para usar un modelo de Model Garden que no tenga una API administrada, debes subir el modelo a Model Registry e implementarlo en un extremo antes de que puedas enviar solicitudes de instrucciones. Esto es similar a subir e implementar un modelo entrenado personalizado para la predicción en línea en Vertex AI.
Para implementar uno de estos modelos, ve a Model Garden y selecciona el modelo que deseas implementar.
En cada tarjeta de modelo, se muestran una o más de las siguientes opciones de implementación:
Botón Implementar: La mayoría de los modelos generativos de Model Garden tienen un botón Implementar que te guía a través de la implementación en Vertex AI. Si no ves el botón Implementar, ve a la siguiente viñeta.
Para la implementación en Vertex AI, puedes usar la configuración sugerida o modificarla. También puedes configurar la configuración de implementación Avanzada para, por ejemplo, seleccionar una reserva de Compute Engine.
Botón Abrir notebook: Esta opción abre un notebook de Jupyter. Cada tarjeta de modelo muestra esta opción. El notebook de Jupyter incluye instrucciones y código de muestra para subir el modelo a Model Registry, implementar el modelo en un extremo y enviar una solicitud de instrucción.
Una vez que se complete la implementación y el extremo esté activo, estará listo para aceptar solicitudes de solicitud en su URI. El formato de la API es predict
y el formato de cada instance
en el cuerpo de la solicitud depende del modelo. Para obtener más información, consulta los siguientes recursos:
Asegúrate de tener suficiente cuota de máquina para implementar tu modelo. Para ver tu cuota actual o solicitar más cuota, ve a la página Cuotas en la consola de Google Cloud.
Luego, filtra por el nombre de cuota Custom Model Serving
para ver las cuotas de la predicción en línea. Para obtener más información, consulta Visualiza y administra cuotas.
Garantiza la capacidad de los modelos implementados con las reservas de Compute Engine
Puedes implementar modelos de Model Garden en recursos de VM que se asignaron a través de reservas de Compute Engine. Las reservas ayudan a garantizar que la capacidad esté disponible cuando las solicitudes de predicciones de tu modelo las necesiten. Para obtener más información, consulta Usa reservas con predicciones.
Ve o administra un modelo
Para los modelos ajustados, puedes ver el modelo y su trabajo de ajuste en la página Ajustar y sintetizar en la consola de Google Cloud.
También puedes ver y administrar todos los modelos subidos en Model Registry.
En Model Registry, un modelo ajustado se clasifica como un Modelo grande y tiene etiquetas que especifican el modelo de base y el trabajo de canalización o ajuste que se usó para el ajuste.
Los modelos que se implementen con el botón Implementar indicarán Model Garden como Source
.
Ten en cuenta que, si el modelo se actualiza en Model Garden, no se actualiza el modelo que subiste en Model Registry.
Para obtener más información, consulta Introducción a Vertex AI Model Registry.
Ve o administra un extremo
Para ver y administrar tu extremo, ve a la página Predicción en línea de Vertex AI. De forma predeterminada, el nombre del extremo es el mismo que el nombre del modelo.
Para obtener más información, consulta Implementa un modelo en un extremo.
Precios
Para los modelos ajustados, se te factura por token a la misma tarifa que el modelo de base desde el que se ajusta tu modelo. No hay costo para el extremo, ya que el ajuste se implementa como un adaptador pequeño sobre el modelo de base. Para obtener más información, consulta los precios de IA generativa en Vertex AI.
En el caso de los modelos sin APIs administradas, se te factura por las horas de máquina que usa tu extremo con la misma tarifa que las predicciones en línea de Vertex AI. No se te cobrará por token. Para obtener más información, consulta los precios de las predicciones en Vertex AI.
¿Qué sigue?
- Descripción general del ajuste de modelos
- Referencia de la API de modelo
- Implementar un modelo en un extremo