Implantar modelos de IA generativa

Nesta página, você verá orientações para implantar um modelo de IA generativa em um endpoint para previsão on-line.

Verificar o Model Garden

Se o modelo estiver no Model Garden, será possível implantá-lo clicando em Implantar (disponível para alguns modelos) ou Abrir notebook.

Acessar o Model Garden

Caso contrário:

Como veicular previsões com o NVIDIA NIM

Os microsserviços de inferência da NVIDIA (NIM) são modelos de IA pré-treinados e otimizados que são empacotados como microsserviços. Eles foram projetados para simplificar a implantação de IA de alto desempenho pronta para produção em aplicativos.

O NVIDIA NIM pode ser usado com o Artifact Registry e o Vertex AI Prediction para implantar modelos de IA generativa para previsão on-line.

Configurações para contêineres personalizados

Nesta seção, descrevemos os campos no containerSpec do seu modelo que talvez você precise especificar ao importar modelos de IA generativa.

É possível especificar esses campos usando a API REST da Vertex AI ou o comando gcloud ai models upload. Para mais informações, consulte Campos da API relacionados ao contêiner.

sharedMemorySizeMb

Alguns modelos de IA generativa exigem mais memória compartilhada. A memória compartilhada é um mecanismo de comunicação entre processos (IPC) que permite que vários processos acessem e manipulem um bloco comum de memória. O tamanho padrão da memória compartilhada é 64 MB.

Alguns servidores de modelos, como o vLLM ou o Nvidia Triton, usam memória compartilhada para armazenar dados internos em cache durante as inferências do modelo. Sem memória compartilhada suficiente, alguns servidores de modelos não podem exibir previsões para modelos generativos. A quantidade de memória compartilhada necessária, se houver, é um detalhe de implementação do seu contêiner e modelo. Consulte as diretrizes na documentação do servidor de modelo.

Além disso, como a memória compartilhada pode ser usada para comunicação entre GPUs, o uso de mais memória compartilhada pode melhorar o desempenho de aceleradores sem recursos do NVLink (por exemplo, L4), se o contêiner do modelo exigir comunicação entre GPUs.

Para informações sobre como especificar um valor personalizado para a memória compartilhada, consulte Campos da API relacionados ao contêiner.

startupProbe

Uma sondagem de inicialização é uma sondagem opcional usada para detectar quando o contêiner foi iniciado. Essa sondagem é usada para atrasar a sondagem de integridade e as verificações de atividade até que o contêiner seja iniciado, o que ajuda a evitar que contêineres de inicialização lenta sejam desligados prematuramente.

Para mais informações, consulte Verificações de integridade.

healthProbe

A sondagem de integridade verifica se um contêiner está pronto para aceitar tráfego. Se a sondagem de integridade não for fornecida, a Vertex AI vai usar as verificações de integridade padrão, que emitem uma solicitação HTTP para a porta do contêiner e buscam uma resposta 200 OK do servidor do modelo.

Se o servidor de modelo responder com 200 OK antes que o modelo seja totalmente carregado, o que é possível, especialmente para modelos grandes, a verificação de integridade será bem-sucedida prematuramente e a Vertex AI encaminhará o tráfego para o contêiner antes de ficar pronto.

Nesses casos, especifique uma sondagem de integridade personalizada que seja bem-sucedida somente depois que o modelo estiver totalmente carregado e pronto para aceitar o tráfego.

Para mais informações, consulte Verificações de integridade.

Limitações

Considere as seguintes limitações ao implantar modelos de IA generativa:

  • Os modelos de IA generativa só podem ser implantados em uma única máquina. Não há suporte para a implantação em vários hosts.
  • Para modelos muito grandes que não cabem na vRAM de maior capacidade, como Llama 3.1 405B, recomendamos a quantização.