Implemente modelos de IA generativa

Esta página fornece orientações para implementar um modelo de IA generativa num ponto final para inferência online.

Verifique o Model Garden

Se o modelo estiver no Model Garden, pode implementá-lo clicando em Implementar (disponível para alguns modelos) ou Abrir bloco de notas.

Aceda ao Model Garden

Caso contrário, pode fazer uma das seguintes ações:

Publicação de inferências com o NVIDIA NIM

Os microsserviços de inferência da NVIDIA (NIM) são modelos de IA pré-preparados e otimizados que são incluídos em pacotes como microsserviços. Foram concebidas para simplificar a implementação de IA de elevado desempenho e pronta para produção em aplicações.

Pode usar o NVIDIA NIM juntamente com o Artifact Registry e o Vertex AI para implementar modelos de IA generativa para a previsão online.

Definições para contentores personalizados

Esta secção descreve os campos no containerSpec do seu modelo que pode ter de especificar ao importar modelos de IA generativa.

Pode especificar estes campos através da API REST do Vertex AI ou do comando gcloud ai models upload. Para mais informações, consulte os campos da API relacionados com o contentor.

sharedMemorySizeMb

Alguns modelos de IA generativa requerem mais memória partilhada. A memória partilhada é um mecanismo de comunicação entre processos (IPC) que permite que vários processos acedam e manipulem um bloco de memória comum. O tamanho da memória partilhada predefinido é de 64 MB.

Alguns servidores de modelos, como o vLLM ou o Nvidia Triton, usam memória partilhada para colocar em cache dados internos durante as inferências de modelos. Sem memória partilhada suficiente, alguns servidores de modelos não podem fornecer inferências para modelos generativos. A quantidade de memória partilhada necessária, se for o caso, é um detalhe de implementação do seu contentor e modelo. Consulte a documentação do servidor de modelos para ver diretrizes.

Além disso, uma vez que a memória partilhada pode ser usada para a comunicação entre GPUs, a utilização de mais memória partilhada pode melhorar o desempenho dos aceleradores sem capacidades NVLink (por exemplo, L4), se o contentor do modelo exigir comunicação entre GPUs.

Para ver informações sobre como especificar um valor personalizado para a memória partilhada, consulte os campos da API relacionados com o contentor.

startupProbe

Uma sondagem de arranque é uma sondagem opcional que é usada para detetar quando o contentor foi iniciado. Esta sonda é usada para atrasar a sonda de verificação do estado de funcionamento e as verificações de atividade até o contentor ser iniciado, o que ajuda a evitar que os contentores de início lento sejam encerrados prematuramente.

Para mais informações, consulte o artigo Verificações de estado.

healthProbe

A sondagem de estado verifica se um contentor está pronto para aceitar tráfego. Se a análise de integridade não for fornecida, a Vertex AI usa as verificações de integridade predefinidas, que enviam um pedido HTTP para a porta do contentor e procuram uma resposta 200 OK do servidor do modelo.

Se o servidor de modelos responder com 200 OK antes de o modelo estar totalmente carregado, o que é possível, especialmente para modelos grandes, a verificação do estado é bem-sucedida prematuramente e o Vertex AI encaminha o tráfego para o contentor antes de estar pronto.

Nestes casos, especifique uma sondagem de saúde personalizada que só tem êxito depois de o modelo estar totalmente carregado e pronto para aceitar tráfego.

Para mais informações, consulte o artigo Verificações de estado.

Limitações

Tenha em atenção as seguintes limitações ao implementar modelos de IA generativa:

  • Os modelos de IA generativa só podem ser implementados numa única máquina. A implementação em vários anfitriões não é suportada.
  • Para modelos muito grandes que não cabem na VRAM suportada maior, como o Llama 3.1 405B, recomendamos que os quantize para caberem.