Esta página foi traduzida pela API Cloud Translation.

Implantar modelos de IA generativa

Alguns modelos de IA generativa, como o Gemini, têm APIs gerenciadas e estão prontos para aceitar comandos sem implantação. Para conferir uma lista de modelos com APIs gerenciadas, consulte APIs de modelo de fundação.

Outros modelos de IA generativa precisam ser implantados em um endpoint antes de estarem prontos para aceitar solicitações. Há dois tipos de modelos generativos que precisam ser implantados:

Modelos ajustados, que são criados ajustando um modelo de fundação compatível com seus próprios dados.
Modelos generativos que não têm APIs gerenciadas. No Grupo de modelos, esses são os modelos que não são rotulados como API disponível ou Vertex AI Studio, por exemplo, Llama 2.

Quando você implanta um modelo em um endpoint, a Vertex AI associa recursos de computação e um URI ao modelo para que ele possa atender a solicitações de comandos.

Implantar um modelo ajustado

Os modelos ajustados são enviados automaticamente para o Vertex AI Model Registry e implantados em um endpoint público compartilhado da Vertex AI. Os modelos ajustados não aparecem no Model Garden porque foram ajustados com seus dados. Para mais informações, consulte Visão geral do ajuste de modelos.

Quando o endpoint está ativo, ele está pronto para aceitar solicitações de comando no URI. O formato da chamada de API para um modelo ajustado é igual ao modelo de fundação de onde ele foi ajustado. Por exemplo, se o modelo estiver ajustado no Gemini, a solicitação de comando precisará seguir a API Gemini.

Certifique-se de enviar solicitações de comando para o endpoint do modelo ajustado em vez de para a API gerenciada. O endpoint do modelo ajustado está no formato:

https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID

Para conseguir o ID do endpoint, consulte Ver ou gerenciar um endpoint.

Para mais informações sobre como formatar solicitações de comandos, consulte a Referência da API Model.

Implantar um modelo generativo que não tenha uma API gerenciada

Para usar um modelo do Model Garden que não tenha uma API gerenciada, faça upload do modelo no Model Registry e implante-o em um endpoint antes de enviar solicitações de comando. Isso é semelhante a fazer upload e implantar um modelo treinado personalizado para previsão on-line na Vertex AI.

Para implantar um desses modelos, acesse o Grupo de modelos e selecione o modelo que você quer implantar.

Acessar o Model Garden

Cada card de modelo mostra uma ou mais das seguintes opções de implantação:

Botão Implantar: a maioria dos modelos generativos no Model Garden tem um botão Implantar que orienta você como implantar na Vertex AI. Se o botão Implantar não for exibido, vá para o próximo marcador.

Para a implantação na Vertex AI, você pode usar as configurações sugeridas ou modificá-las. Também é possível definir as configurações de implantação Avançadas para, por exemplo, selecionar uma reserva do Compute Engine.

Observação: alguns modelos também oferecem suporte à implantação no Google Kubernetes Engine, que é uma solução não gerenciada que oferece ainda mais controle. Para mais informações, consulte Exibir um modelo com uma única GPU no GKE.
Botão Abrir Notebook: essa opção abre um notebook do Jupyter. Cada card de modelo exibe essa opção. O notebook do Jupyter inclui instruções e exemplo de código para fazer upload do modelo no Model Registry, implantar o modelo em um endpoint e enviar uma solicitação de comando.

Depois que a implantação for concluída e o endpoint estiver ativo, ele estará pronto para aceitar solicitações de comando no URI. O formato da API é predict e o formato de cada instance no corpo da solicitação depende do modelo. Para saber mais, acesse os recursos a seguir (links em inglês):

Verifique se você tem cota de máquina suficiente para implantar o modelo. Para conferir sua cota atual ou solicitar mais cota, acesse a página Cotas no console Google Cloud .

Acesse Cotas

Em seguida, filtre pelo nome da cota Custom Model Serving para ver as cotas da previsão on-line. Para saber mais, consulte Visualizar e gerenciar cotas.

Garantir a capacidade dos modelos implantados com reservas do Compute Engine

É possível implantar modelos do Model Garden em recursos de VM alocados com reservas do Compute Engine. As reservas ajudam a garantir que a capacidade esteja disponível quando as solicitações de previsões do modelo precisarem delas. Para mais informações, consulte Usar reservas com previsão.

Acessar ou gerenciar um modelo

Para modelos ajustados, é possível visualizar o modelo e o job de ajuste dele na página Ajustar e destilar no Google Cloud console.

Acesse "Ajustar e destilar"

Também é possível visualizar e gerenciar todos os modelos enviados no Model Registry.

Acessar o Model Registry

No Model Registry, um modelo ajustado é categorizado como um modelo grande e tem rótulos que especificam o modelo de fundação e o pipeline ou o job de ajuste que foi usado.

Os modelos implantados com o botão Implantar vão indicar o Model Garden como Source. Se o modelo for atualizado no Model Garden, o modelo enviado no Model Registry não será atualizado.

Para mais informações, consulte Introdução ao Vertex AI Model Registry.

Ver ou gerenciar um endpoint

Para visualizar e gerenciar seu endpoint, acesse a página Previsão on-line da Vertex AI. Por padrão, o nome do endpoint é igual ao nome do modelo.

Acessar a previsão on-line

Para mais informações, consulte Implantar um modelo em um endpoint.

Monitorar o tráfego do endpoint do modelo

Para saber como monitorar o tráfego de endpoints de modelos, consulte Monitorar modelos.

Limitações

Um modelo do Gemini ajustado só pode ser implantado em um endpoint público compartilhado. A implantação em endpoints públicos dedicados, endpoints do Private Service Connect e endpoints particulares não é compatível.

Preços

Para modelos ajustados, você é cobrado por token na mesma taxa do modelo de fundação em que o modelo foi ajustado. Não há custo para o endpoint porque o ajuste é implementado como um pequeno adaptador sobre o modelo de fundação. Para mais informações, consulte Preços da IA generativa na Vertex AI.

Para modelos sem APIs gerenciadas, você é cobrado pelas horas da máquina usadas pelo endpoint com a mesma taxa das previsões on-line da Vertex AI. Você não vai receber cobranças por token. Para mais informações, consulte preços para previsões na Vertex AI.