Implantar modelos de IA generativa

Nesta página, você verá orientações para implantar um modelo de IA generativa em um endpoint para previsão on-line.

Verificar o Model Garden

Se o modelo estiver no Model Garden, será possível implantá-lo clicando em Implantar (disponível para alguns modelos) ou Abrir notebook.

Acessar o Model Garden

Caso contrário:

Configurações para contêineres personalizados

Nesta seção, descrevemos os campos no containerSpec do seu modelo que talvez você precise especificar ao importar modelos de IA generativa.

sharedMemorySizeMb

Alguns modelos de IA generativa exigem mais memória compartilhada. A memória compartilhada é um mecanismo de comunicação entre processos (IPC) que permite que vários processos acessem e manipulem um bloco comum de memória. O tamanho padrão da memória compartilhada é 64 MB.

Alguns servidores de modelos, como o vLLM ou o Nvidia Triton, usam memória compartilhada para armazenar dados internos em cache durante as inferências do modelo. Sem um modelo compartilhado suficiente, alguns servidores de modelos não podem exibir previsões para modelos generativos. A quantidade de memória compartilhada necessária, se houver, é um detalhe de implementação do seu contêiner e modelo. Consulte as diretrizes na documentação do servidor de modelo.

Além disso, como a memória compartilhada pode ser usada para comunicação entre GPUs, o uso de mais memória compartilhada pode melhorar o desempenho de aceleradores sem recursos do NVLink (por exemplo, L4), se o contêiner do modelo exigir comunicação entre GPUs.

Para informações sobre como especificar um valor personalizado para a memória compartilhada, consulte Campos da API relacionados ao contêiner.

startupProbe

Uma sondagem de inicialização é uma sondagem opcional usada para detectar quando o contêiner foi iniciado. Essa sondagem é usada para atrasar a sondagem de integridade e as verificações de atividade até que o contêiner seja iniciado, o que ajuda a evitar que contêineres de inicialização lenta sejam desligados prematuramente.

Para mais informações, consulte Verificações de integridade.

healthProbe

A sondagem de integridade verifica se um contêiner está pronto para aceitar tráfego. Se a sondagem de integridade não for fornecida, a Vertex AI vai usar as verificações de integridade padrão, que emitem uma solicitação HTTP para a porta do contêiner e buscam uma resposta 200 OK do servidor do modelo.

Se o servidor de modelo responder com 200 OK antes que o modelo seja totalmente carregado, o que é possível, especialmente para modelos grandes, a verificação de integridade será bem-sucedida prematuramente e a Vertex AI encaminhará o tráfego para o contêiner antes de ficar pronto.

Nesses casos, especifique uma sondagem de integridade personalizada que seja bem-sucedida somente depois que o modelo estiver totalmente carregado e pronto para aceitar o tráfego.

Para mais informações, consulte Verificações de integridade.