Esta página foi traduzida pela API Cloud Translation.

Use pontos finais públicos dedicados para a inferência online

Um ponto final público dedicado é um ponto final público para a inferência online. Oferece as seguintes vantagens:

Rede dedicada: quando envia um pedido de inferência para um ponto final público dedicado, este é isolado do tráfego de outros utilizadores.
Latência de rede otimizada
Suporte de payload maior: até 10 MB.
Limites de tempo de pedidos mais longos: configuráveis até 1 hora.
Pronto para IA generativa: o streaming e o gRPC são suportados. O limite de tempo de inferência é configurável até 1 hora.

Por estes motivos, os pontos finais públicos dedicados são recomendados como prática recomendada para publicar inferências online da Vertex AI.

Para saber mais, consulte o artigo Escolha um tipo de ponto final.

Crie um ponto final público dedicado e implemente um modelo no mesmo

Pode criar um ponto final dedicado e implementar um modelo no mesmo através da Google Cloud consola. Para ver detalhes, consulte o artigo Implemente um modelo através da Google Cloud consola.

Também pode criar um ponto final público dedicado e implementar um modelo no mesmo através da API Vertex AI da seguinte forma:

Crie um ponto final público dedicado. A configuração do limite de tempo da inferência e das definições de registo de pedidos e respostas é suportada no momento da criação do ponto final.
Implemente o modelo através da API Vertex AI.

Obtenha inferências online a partir de um ponto final público dedicado

Os pontos finais dedicados suportam os protocolos de comunicação HTTP e gRPC. Para pedidos gRPC, o cabeçalho x-vertex-ai-endpoint-id tem de ser incluído para a identificação adequada do ponto final. As seguintes APIs são suportadas:

Prever
RawPredict
StreamRawPredict
Conclusão de chat (apenas no Model Garden)

Pode enviar pedidos de inferência online para um ponto final público dedicado através do SDK do Vertex AI para Python. Para ver detalhes, consulte o artigo Envie um pedido de inferência online para um ponto final público dedicado.

Tutorial

Limitações

A implementação de modelos do Gemini otimizados não é suportada.
Os VPC Service Controls não são suportados. Em alternativa, use um ponto final do Private Service Connect.

O que se segue?

Saiba mais sobre os tipos de pontos finais de inferência online da Vertex AI.