Alguns modelos de IA generativa, como o Gemini, têm APIs gerenciadas e estão prontos para aceitar comandos sem implantação. Para conferir uma lista de modelos com APIs gerenciadas, consulte APIs de modelo de fundação.
Outros modelos de IA generativa precisam ser implantados em um endpoint antes de estarem prontos para aceitar solicitações. Há dois tipos de modelos generativos que precisam ser implantados:
Modelos ajustados, que são criados ajustando um modelo de fundação compatível com seus próprios dados.
Modelos generativos que não têm APIs gerenciadas. No Grupo de modelos, esses são os modelos que não são rotulados como API disponível ou Vertex AI Studio, por exemplo, Llama 2.
Quando você implanta um modelo em um endpoint, a Vertex AI associa recursos de computação e um URI ao modelo para que ele possa atender a solicitações de comandos.
Implantar um modelo ajustado
Os modelos ajustados são enviados automaticamente para o
Vertex AI Model Registry
e implantados em um endpoint
da Vertex AI. Os modelos ajustados não
aparecem no Model Garden porque foram ajustados com seus dados.
Para mais informações, consulte
Visão geral do ajuste de modelos.
Quando o endpoint está ativo, ele está pronto para aceitar solicitações de comando no URI. O formato da chamada de API para um modelo ajustado é igual ao modelo de fundação de onde ele foi ajustado. Por exemplo, se o modelo estiver ajustado no Gemini, a solicitação de comando precisará seguir a API Gemini.
Certifique-se de enviar solicitações de comando para o endpoint do modelo ajustado em vez de para a API gerenciada. O endpoint do modelo ajustado está no formato:
https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/endpoints/ENDPOINT_ID
Para conseguir o ID do endpoint, consulte Ver ou gerenciar um endpoint.
Para mais informações sobre como formatar solicitações de comandos, consulte a Referência da API Model.
Implantar um modelo generativo que não tenha uma API gerenciada
Para usar um modelo do Model Garden que não tenha uma API gerenciada, faça upload do modelo no Model Registry e implante-o em um endpoint antes de enviar solicitações de comando. Isso é semelhante a fazer upload e implantar um modelo treinado personalizado para previsão on-line na Vertex AI.
Para implantar um desses modelos, acesse o Grupo de modelos e selecione o modelo que você quer implantar.
Cada card de modelo mostra uma ou mais das seguintes opções de implantação:
Botão Implantar: a maioria dos modelos generativos no Model Garden tem um botão Implantar que orienta você como implantar na Vertex AI. Se o botão Implantar não for exibido, vá para o próximo marcador.
Para a implantação na Vertex AI, você pode usar as configurações sugeridas ou modificá-las. Também é possível definir as configurações de implantação Avançadas para, por exemplo, selecionar uma reserva do Compute Engine.
Botão Abrir Notebook: essa opção abre um notebook do Jupyter. Cada card de modelo exibe essa opção. O notebook do Jupyter inclui instruções e exemplo de código para fazer upload do modelo no Model Registry, implantar o modelo em um endpoint e enviar uma solicitação de comando.
Depois que a implantação for concluída e o endpoint estiver ativo, ele estará pronto para aceitar
solicitações de comando no URI. O formato da API é
predict
e o formato
de cada instance
no corpo da solicitação depende do modelo. Para saber mais, acesse os recursos a seguir (links em inglês):
Verifique se você tem cota de máquina suficiente para implantar o modelo. Para visualizar sua cota atual ou solicitar mais cota, acesse a página Cotas no console do Google Cloud.
Em seguida, filtre pelo nome da cota Custom Model Serving
para ver as cotas da previsão on-line. Para saber mais, consulte Visualizar e gerenciar cotas.
Garantir a capacidade dos modelos implantados com reservas do Compute Engine
É possível implantar modelos do Model Garden em recursos de VM alocados com reservas do Compute Engine. As reservas ajudam a garantir que a capacidade esteja disponível quando as solicitações de previsões do modelo precisarem delas. Para mais informações, consulte Usar reservas com previsão.
Acessar ou gerenciar um modelo
Para modelos ajustados, é possível visualizar o modelo e o job de ajuste dele na página Ajustar e destilar no console do Google Cloud.
Também é possível visualizar e gerenciar todos os modelos enviados no Model Registry.
No Model Registry, um modelo ajustado é categorizado como um modelo grande e tem rótulos que especificam o modelo de fundação e o pipeline ou o job de ajuste que foi usado.
Os modelos implantados com o botão Implantar vão indicar o Model Garden
como Source
.
Se o modelo for atualizado no Model Garden, o
modelo enviado no Model Registry não será atualizado.
Para mais informações, consulte Introdução ao Vertex AI Model Registry.
Ver ou gerenciar um endpoint
Para visualizar e gerenciar seu endpoint, acesse a página Previsão on-line da Vertex AI. Por padrão, o nome do endpoint é igual ao nome do modelo.
Para mais informações, consulte Implantar um modelo em um endpoint.
Preços
Para modelos ajustados, você é cobrado por token na mesma taxa do modelo de fundação em que o modelo foi ajustado. Não há custo para o endpoint porque o ajuste é implementado como um pequeno adaptador sobre o modelo de fundação. Para mais informações, consulte Preços da IA generativa na Vertex AI.
Para modelos sem APIs gerenciadas, você é cobrado pelas horas da máquina usadas pelo endpoint com a mesma taxa das previsões on-line da Vertex AI. Você não vai receber cobranças por token. Para mais informações, consulte preços para previsões na Vertex AI.