Usar endpoints públicos dedicados para inferência on-line

Um endpoint público dedicado é um endpoint público para inferência on-line. Ele oferece os seguintes benefícios:

  • Rede dedicada: quando você envia uma solicitação de inferência para um endpoint público dedicado, ela fica isolada do tráfego de outros usuários.
  • Latência de rede otimizada
  • Suporte a payloads maiores: até 10 MB.
  • Tempos limite de solicitação mais longos: configuráveis em até 1 hora.
  • Pronto para IA generativa: streaming e gRPC são compatíveis. O tempo limite de inferência pode ser configurado para até uma hora.

Por esses motivos, os endpoints públicos dedicados são recomendados como prática recomendada para veicular inferências on-line da Vertex AI.

Para saber mais, consulte Escolher um tipo de endpoint.

Criar um endpoint público dedicado e implantar um modelo nele

É possível criar um endpoint dedicado e implantar um modelo nele usando o consoleGoogle Cloud . Para mais detalhes, consulte Implantar um modelo usando o console do Google Cloud .

Também é possível criar um endpoint público dedicado e implantar um modelo nele usando a API Vertex AI da seguinte maneira:

  1. Crie um endpoint público dedicado. A configuração do tempo limite de inferência e das configurações de geração de registros de solicitação-resposta é compatível no momento da criação do endpoint.
  2. Implante o modelo usando a API Vertex AI.

Receber inferências on-line de um endpoint público dedicado

Os endpoints dedicados são compatíveis com os protocolos de comunicação HTTP e gRPC. Para solicitações gRPC, o cabeçalho x-vertex-ai-endpoint-id precisa ser incluído para a identificação adequada do endpoint. Há suporte para as seguintes APIs:

  • Prever
  • RawPredict
  • StreamRawPredict
  • Conclusão de chat (somente no Model Garden)

É possível enviar solicitações de inferência on-line a um endpoint público dedicado usando o SDK da Vertex AI para Python. Para mais detalhes, consulte Enviar uma solicitação de inferência on-line para um endpoint público dedicado.

Tutorial

Limitações

  • A implantação de modelos ajustados do Gemini não é compatível.
  • O VPC Service Controls não é compatível. Em vez disso, use um endpoint do Private Service Connect.

A seguir