En esta página se explica cómo desplegar un modelo de IA generativa en un endpoint para realizar inferencias online.
Consultar Model Garden
Si el modelo está en Model Garden, puedes desplegarlo haciendo clic en Desplegar (disponible para algunos modelos) o en Abrir cuaderno.
De lo contrario, puedes hacer una de las siguientes acciones:
Si tu modelo es similar a uno de los de Model Garden, puede que puedas reutilizar directamente uno de los contenedores de Model Garden.
Crea tu propio contenedor personalizado que cumpla los requisitos de los contenedores personalizados para la inferencia antes de importar tu modelo al registro de modelos de Vertex AI. Una vez importado, se convierte en un recurso
model
que puedes desplegar en un endpoint.Puedes usar los Dockerfiles y las secuencias de comandos que usamos para crear nuestros contenedores de Model Garden como referencia o punto de partida para crear tus propios contenedores personalizados.
Servir inferencias con NVIDIA NIM
Los microservicios de inferencia de NVIDIA (NIM) son modelos de IA entrenados previamente y optimizados que se empaquetan como microservicios. Están diseñadas para simplificar la implementación de IA de alto rendimiento y lista para producción en aplicaciones.
NVIDIA NIM se puede usar junto con Artifact Registry y Vertex AI para desplegar modelos de IA generativa para la inferencia online.
Ajustes de contenedores personalizados
En esta sección se describen los campos de tu modelo containerSpec
que puede que tengas que especificar al importar modelos de IA generativa.
Puedes especificar estos campos mediante la API REST de Vertex AI o el comando gcloud ai models upload
.
Para obtener más información, consulta los campos de la API relacionados con contenedores.
sharedMemorySizeMb
Algunos modelos de IA generativa requieren más memoria compartida. La memoria compartida es un mecanismo de comunicación entre procesos (IPC) que permite que varios procesos accedan a un bloque de memoria común y lo manipulen. El tamaño predeterminado de la memoria compartida es de 64 MB.
Algunos servidores de modelos, como vLLM o Nvidia Triton, usan memoria compartida para almacenar en caché datos internos durante las inferencias del modelo. Si no hay suficiente memoria compartida, algunos servidores de modelos no pueden ofrecer inferencias para modelos generativos. La cantidad de memoria compartida necesaria, si la hay, es un detalle de implementación de tu contenedor y modelo. Consulta las directrices en la documentación del servidor del modelo.
Además, como la memoria compartida se puede usar para la comunicación entre GPUs, usar más memoria compartida puede mejorar el rendimiento de los aceleradores sin funciones NVLink (por ejemplo, L4) si el contenedor del modelo requiere comunicación entre GPUs.
Para obtener información sobre cómo especificar un valor personalizado para la memoria compartida, consulta la sección Campos de API relacionados con contenedores.
startupProbe
Una prueba de inicio es una prueba opcional que se usa para detectar cuándo se ha iniciado el contenedor. Esta sonda se usa para retrasar la sonda de comprobación del estado y las comprobaciones de actividad hasta que se haya iniciado el contenedor, lo que ayuda a evitar que los contenedores que tardan en iniciarse se cierren prematuramente.
Para obtener más información, consulta Comprobaciones del estado.
healthProbe
La comprobación de estado comprueba si un contenedor está listo para aceptar tráfico. Si no se proporciona una sonda de estado, Vertex AI usará las comprobaciones de estado predeterminadas, que envían una solicitud HTTP al puerto del contenedor y buscan una respuesta
200 OK
del servidor del modelo.Si el servidor de tu modelo responde con
200 OK
antes de que el modelo se haya cargado por completo (lo cual es posible, sobre todo en el caso de los modelos grandes), la comprobación del estado se completará antes de tiempo y Vertex AI dirigirá el tráfico al contenedor antes de que esté listo.En estos casos, especifica una sonda de estado personalizada que solo se complete correctamente cuando el modelo se haya cargado por completo y esté listo para aceptar tráfico.
Para obtener más información, consulta Comprobaciones del estado.
Limitaciones
Ten en cuenta las siguientes limitaciones al implementar modelos de IA generativa:
- Los modelos de IA generativa solo se pueden desplegar en una máquina. No se admite la implementación de varios hosts.
- En el caso de los modelos muy grandes que no caben en la VRAM más grande admitida, como Llama 3.1 405B, te recomendamos que los cuantifiques para que quepan.