Na Google Cloud consola, pode criar um ponto final público e implementar um modelo no mesmo.
Os modelos podem ser implementados a partir da página de previsão online ou da página do registo de modelos.
Implemente um modelo a partir da página Previsão online
Na página Previsão online, pode criar um ponto final e implementar um ou mais modelos no mesmo da seguinte forma:
Na Google Cloud consola, na secção Vertex AI, aceda à página Previsão online.
Clique em
Criar.No painel Novo ponto final:
Introduza o Nome do ponto final.
Selecione Padrão para o tipo de acesso.
Para criar um ponto final público dedicado (não partilhado), selecione a caixa de verificação Ativar DNS dedicado.
Clique em Continuar.
No painel Definições do modelo:
Selecione o seu modelo na lista pendente.
Escolha a versão do modelo na lista pendente.
Introduza a percentagem de divisão de tráfego para o modelo.
Clique em Concluído.
Repita estes passos para todos os modelos adicionais a implementar.
Implemente um modelo a partir da página do registo de modelos
Na página Model Registry, pode implementar um modelo num ou mais pontos finais novos ou existentes da seguinte forma:
Na Google Cloud consola, na secção Vertex AI, aceda à página Modelos.
Clique no nome e no ID da versão do modelo que quer implementar para abrir a respetiva página de detalhes.
Selecione o separador Implementar e testar.
Se o seu modelo já estiver implementado em quaisquer pontos finais, estes são apresentados na secção Implemente o seu modelo.
Clique em Implementar no ponto final.
Para implementar o seu modelo num novo ponto final:
- Selecione Criar novo ponto final
- Indique um nome para o novo ponto final.
- Para criar um ponto final público dedicado (não partilhado), selecione a caixa de verificação Ativar DNS dedicado.
- Clique em Continuar.
Para implementar o modelo num ponto final existente:
- Selecione Adicionar a ponto final existente.
- Selecione o ponto final na lista pendente.
- Clique em Continuar.
Pode implementar vários modelos num ponto final ou implementar o mesmo modelo em vários pontos finais.
Se implementar o modelo num ponto final existente com um ou mais modelos implementados, tem de atualizar a percentagem de Divisão de tráfego para o modelo que está a implementar e os modelos já implementados, de modo que todas as percentagens totalizem 100%.
Se estiver a implementar o seu modelo num novo ponto final, aceite 100 para a divisão de tráfego. Caso contrário, ajuste os valores de divisão do tráfego para todos os modelos no ponto final de modo que totalizem 100.
Introduza o número mínimo de nós de computação que quer fornecer para o seu modelo.
Este é o número de nós que têm de estar sempre disponíveis para o modelo.
É-lhe cobrado o número de nós usados, quer para processar a carga de inferência ou para nós de reserva (mínimo), mesmo sem tráfego de inferência. Consulte a página de preços.
O número de nós de computação pode aumentar, se necessário, para processar o tráfego de inferência, mas nunca excede o número máximo de nós.
Para usar o dimensionamento automático, introduza o número máximo de nós de computação que quer que o Vertex AI aumente.
Selecione o Tipo de máquina.
Os recursos de máquina maiores aumentam o desempenho da inferência e aumentam os custos. Compare os tipos de máquinas disponíveis.
Selecione um tipo de acelerador e uma quantidade de aceleradores.
Se ativou a utilização do acelerador quando importou ou criou o modelo, esta opção é apresentada.
Para a quantidade de aceleradores, consulte a tabela de GPUs para verificar os números válidos de GPUs que pode usar com cada tipo de máquina de CPU. A quantidade de aceleradores refere-se ao número de aceleradores por nó e não ao número total de aceleradores na sua implementação.
Se quiser usar uma conta de serviço personalizada para a implementação, selecione uma conta de serviço na caixa pendente Conta de serviço.
Saiba como alterar as definições predefinidas para o registo de inferências.
Clique em Concluído para o seu modelo e, quando todas as percentagens de Divisão de tráfego estiverem corretas, clique em Continuar.
É apresentada a região onde o seu modelo é implementado. Esta tem de ser a região onde criou o modelo.
Clique em Implementar para implementar o modelo no ponto final.
O que se segue?
- Saiba como obter uma inferência online.
- Saiba como alterar as definições predefinidas para o registo de inferências.