Escolha um tipo de ponto final

Para implementar um modelo para inferência online, precisa de um ponto final. Os pontos finais podem ser divididos nos seguintes tipos:

  • Os pontos finais públicos podem ser acedidos através da Internet pública. São mais fáceis de usar, porque não é necessária nenhuma infraestrutura de rede privada. Existem dois tipos de pontos finais públicos: dedicados e partilhados. Um ponto final público dedicado é um ponto final mais rápido que oferece isolamento de produção, suporte para tamanhos de payload maiores e tempos limite de pedidos mais longos do que um ponto final público partilhado. Além disso, quando envia um pedido de inferência para um ponto final público dedicado, este fica isolado do tráfego de outros utilizadores. Por estes motivos, os pontos finais públicos dedicados são recomendados como prática recomendada.

  • Os pontos finais privados dedicados que usam o Private Service Connect oferecem uma ligação segura para comunicação privada entre as instalações e aGoogle Cloud. Podem ser usadas para controlar o tráfego da API Google através da utilização de APIs Private Service Connect. São recomendadas como uma prática recomendada.

  • Os pontos finais privados também oferecem uma ligação segura ao seu modelo e também podem ser usados para comunicação privada entre as instalações e Google Cloud. Usam o acesso a serviços privados através de uma ligação de interligação de redes VPC.

Para mais informações sobre a implementação de um modelo num ponto final, consulte o artigo Implemente um modelo num ponto final.

A tabela seguinte compara os tipos de pontos finais suportados para publicações de inferências online da Vertex AI.

Ponto final público dedicado (recomendado) Ponto final público partilhado Ponto final privado dedicado através do Private Service Connect (recomendado) Ponto final privado
Finalidade Experiência de rede predefinida. Permite o envio de pedidos a partir da Internet pública. Experiência de rede predefinida. Permite o envio de pedidos a partir da Internet pública. Recomendado para aplicações empresariais de produção. Melhora a latência e a segurança da rede, garantindo que os pedidos e as respostas são encaminhados de forma privada. Recomendado para aplicações empresariais de produção. Melhora a latência e a segurança da rede, garantindo que os pedidos e as respostas são encaminhados de forma privada.
Acesso à rede Internet pública através de um plano de rede dedicado Internet pública através de um plano de rede partilhado Redes privadas através do ponto final do Private Service Connect Redes privadas através do acesso a serviços privados (intercâmbio da rede da VPC)
VPC Service Controls Não suportado. Em alternativa, use um ponto final privado dedicado. Suportado Suportado Suportado
Custo Vertex AI Inference Vertex AI Inference Vertex AI Inference + ponto final do Private Service Connect Inferência da Vertex AI + Acesso a serviços privados (consulte: "Usar um ponto final do Private Service Connect (regra de encaminhamento) para aceder a um serviço publicado")
Latência de rede Otimizado Não otimizado Otimizado Otimizado
Encriptação em trânsito TLS com certificado assinado pela AC TLS com certificado assinado pela AC TLS opcional com certificado autoassinado Nenhum
Limite de tempo de inferência Configurável até 1 hora 60 segundos Configurável até 1 hora 60 segundos
Limite de tamanho do payload 10 MB 1,5 MB 10 MB 10 MB
Quota de QPM Ilimitado 30 000 Ilimitado Ilimitado
Suporte de protocolos HTTP ou gRPC HTTP HTTP ou gRPC HTTP
Apoio técnico de streaming Sim (SSE) Não Sim (SSE) Não
Divisão de tráfego Sim Sim Sim Não
Registo de pedidos e respostas Sim Sim Sim Não
Registo de acesso Sim Sim Sim Não
Implementação do modelo do Gemini ajustado Não Sim Não Não
Modelos da Plataforma AutoML e explicabilidade Não Sim Não Não
Bibliotecas cliente suportadas SDK Vertex AI para Python Bibliotecas cliente da Vertex AI, SDK Vertex AI para Python SDK Vertex AI para Python SDK Vertex AI para Python

O que se segue?