Esta página fornece orientações para implementar um modelo de IA generativa num ponto final para inferência online.
Verifique o Model Garden
Se o modelo estiver no Model Garden, pode implementá-lo clicando em Implementar (disponível para alguns modelos) ou Abrir bloco de notas.
Caso contrário, pode fazer uma das seguintes ações:
Se o seu modelo for semelhante a um no Model Garden, pode conseguir reutilizar diretamente um dos contentores do Model Garden.
Crie o seu próprio contentor personalizado que cumpra os requisitos de contentores personalizados para a previsão antes de importar o seu modelo para o Vertex AI Model Registry. Após a importação, torna-se um recurso
model
que pode implementar num ponto final.Pode usar os Dockerfiles e scripts que usamos para criar os nossos contentores do Model Garden como referência ou ponto de partida para criar os seus próprios contentores personalizados.
Publicação de inferências com o NVIDIA NIM
Os microsserviços de inferência da NVIDIA (NIM) são modelos de IA pré-preparados e otimizados que são incluídos em pacotes como microsserviços. Foram concebidas para simplificar a implementação de IA de elevado desempenho e pronta para produção em aplicações.
Pode usar o NVIDIA NIM juntamente com o Artifact Registry e o Vertex AI para implementar modelos de IA generativa para a previsão online.
Definições para contentores personalizados
Esta secção descreve os campos no containerSpec
do seu modelo que pode ter de especificar ao importar modelos de IA generativa.
Pode especificar estes campos através da API REST do Vertex AI ou do comando gcloud ai models upload
.
Para mais informações, consulte os
campos da API relacionados com o contentor.
sharedMemorySizeMb
Alguns modelos de IA generativa requerem mais memória partilhada. A memória partilhada é um mecanismo de comunicação entre processos (IPC) que permite que vários processos acedam e manipulem um bloco de memória comum. O tamanho da memória partilhada predefinido é de 64 MB.
Alguns servidores de modelos, como o vLLM ou o Nvidia Triton, usam memória partilhada para colocar em cache dados internos durante as inferências de modelos. Sem memória partilhada suficiente, alguns servidores de modelos não podem fornecer inferências para modelos generativos. A quantidade de memória partilhada necessária, se for o caso, é um detalhe de implementação do seu contentor e modelo. Consulte a documentação do servidor de modelos para ver diretrizes.
Além disso, uma vez que a memória partilhada pode ser usada para a comunicação entre GPUs, a utilização de mais memória partilhada pode melhorar o desempenho dos aceleradores sem capacidades NVLink (por exemplo, L4), se o contentor do modelo exigir comunicação entre GPUs.
Para ver informações sobre como especificar um valor personalizado para a memória partilhada, consulte os campos da API relacionados com o contentor.
startupProbe
Uma sondagem de arranque é uma sondagem opcional que é usada para detetar quando o contentor foi iniciado. Esta sonda é usada para atrasar a sonda de verificação do estado de funcionamento e as verificações de atividade até o contentor ser iniciado, o que ajuda a evitar que os contentores de início lento sejam encerrados prematuramente.
Para mais informações, consulte o artigo Verificações de estado.
healthProbe
A sondagem de estado verifica se um contentor está pronto para aceitar tráfego. Se a análise de integridade não for fornecida, a Vertex AI usa as verificações de integridade predefinidas, que enviam um pedido HTTP para a porta do contentor e procuram uma resposta
200 OK
do servidor do modelo.Se o servidor de modelos responder com
200 OK
antes de o modelo estar totalmente carregado, o que é possível, especialmente para modelos grandes, a verificação do estado é bem-sucedida prematuramente e o Vertex AI encaminha o tráfego para o contentor antes de estar pronto.Nestes casos, especifique uma sondagem de saúde personalizada que só tem êxito depois de o modelo estar totalmente carregado e pronto para aceitar tráfego.
Para mais informações, consulte o artigo Verificações de estado.
Limitações
Tenha em atenção as seguintes limitações ao implementar modelos de IA generativa:
- Os modelos de IA generativa só podem ser implementados numa única máquina. A implementação em vários anfitriões não é suportada.
- Para modelos muito grandes que não cabem na VRAM suportada maior, como o Llama 3.1 405B, recomendamos que os quantize para caberem.