Esta página se ha traducido con Cloud Translation API.

Desplegar modelos de IA generativa

En esta página se explica cómo desplegar un modelo de IA generativa en un endpoint para realizar inferencias online.

Consultar Model Garden

Si el modelo está en Model Garden, puedes desplegarlo haciendo clic en Desplegar (disponible para algunos modelos) o en Abrir cuaderno.

Ir a Model Garden

De lo contrario, puedes hacer una de las siguientes acciones:

Si tu modelo es similar a uno de los de Model Garden, puede que puedas reutilizar directamente uno de los contenedores de Model Garden.
Crea tu propio contenedor personalizado que cumpla los requisitos de los contenedores personalizados para la inferencia antes de importar tu modelo al registro de modelos de Vertex AI. Una vez importado, se convierte en un recurso model que puedes desplegar en un endpoint.

Puedes usar los Dockerfiles y las secuencias de comandos que usamos para crear nuestros contenedores de Model Garden como referencia o punto de partida para crear tus propios contenedores personalizados.

Servir inferencias con NVIDIA NIM

Los microservicios de inferencia de NVIDIA (NIM) son modelos de IA entrenados previamente y optimizados que se empaquetan como microservicios. Están diseñadas para simplificar la implementación de IA de alto rendimiento y lista para producción en aplicaciones.

NVIDIA NIM se puede usar junto con Artifact Registry y Vertex AI para desplegar modelos de IA generativa para la inferencia online.

Ajustes de contenedores personalizados

En esta sección se describen los campos de tu modelo containerSpec que puede que tengas que especificar al importar modelos de IA generativa.

Puedes especificar estos campos mediante la API REST de Vertex AI o el comando gcloud ai models upload. Para obtener más información, consulta los campos de la API relacionados con contenedores.

sharedMemorySizeMb

Algunos modelos de IA generativa requieren más memoria compartida. La memoria compartida es un mecanismo de comunicación entre procesos (IPC) que permite que varios procesos accedan a un bloque de memoria común y lo manipulen. El tamaño predeterminado de la memoria compartida es de 64 MB.

Algunos servidores de modelos, como vLLM o Nvidia Triton, usan memoria compartida para almacenar en caché datos internos durante las inferencias del modelo. Si no hay suficiente memoria compartida, algunos servidores de modelos no pueden ofrecer inferencias para modelos generativos. La cantidad de memoria compartida necesaria, si la hay, es un detalle de implementación de tu contenedor y modelo. Consulta las directrices en la documentación del servidor del modelo.

Además, como la memoria compartida se puede usar para la comunicación entre GPUs, usar más memoria compartida puede mejorar el rendimiento de los aceleradores sin funciones NVLink (por ejemplo, L4) si el contenedor del modelo requiere comunicación entre GPUs.

Para obtener información sobre cómo especificar un valor personalizado para la memoria compartida, consulta la sección Campos de API relacionados con contenedores.

startupProbe

Una prueba de inicio es una prueba opcional que se usa para detectar cuándo se ha iniciado el contenedor. Esta sonda se usa para retrasar la sonda de comprobación del estado y las comprobaciones de actividad hasta que se haya iniciado el contenedor, lo que ayuda a evitar que los contenedores que tardan en iniciarse se cierren prematuramente.

Para obtener más información, consulta Comprobaciones del estado.

healthProbe

La comprobación de estado comprueba si un contenedor está listo para aceptar tráfico. Si no se proporciona una sonda de estado, Vertex AI usará las comprobaciones de estado predeterminadas, que envían una solicitud HTTP al puerto del contenedor y buscan una respuesta 200 OK del servidor del modelo.

Si el servidor de tu modelo responde con 200 OK antes de que el modelo se haya cargado por completo (lo cual es posible, sobre todo en el caso de los modelos grandes), la comprobación del estado se completará antes de tiempo y Vertex AI dirigirá el tráfico al contenedor antes de que esté listo.

En estos casos, especifica una sonda de estado personalizada que solo se complete correctamente cuando el modelo se haya cargado por completo y esté listo para aceptar tráfico.