A tabela a seguir compara os tipos de endpoint compatíveis para veiculação de previsões on-line da Vertex AI e indica quais tipos são recomendados como práticas recomendadas.
Endpoint público dedicado (recomendado) | Endpoint público | Endpoint do Private Service Connect (recomendado) | Endpoint particular | |
---|---|---|---|---|
Finalidade | Experiência de rede padrão. Permite o envio de solicitações da Internet pública (se o VPC Service Controls não estiver ativado). | Experiência de rede padrão. Permite o envio de solicitações da Internet pública (se o VPC Service Controls não estiver ativado). | Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede, garantindo que as solicitações e respostas sejam roteadas de forma privada. | Recomendado para aplicativos empresariais de produção. Melhora a latência e a segurança da rede, garantindo que as solicitações e respostas sejam roteadas de forma privada. |
Rede de entrada | Internet pública usando o plano de rede dedicado | Internet pública usando o plano de rede compartilhada | Rede privada usando o endpoint do Private Service Connect | Rede privada usando o acesso a serviços particulares (peering de rede VPC) |
Rede de saída | Internet pública | Internet pública | Sem suporte | Rede privada usando o acesso a serviços particulares (peering de rede VPC) |
VPC Service Controls | Incompatível. Use o endpoint do Private Service Connect. | Compatível | Compatível | Compatível |
Custo | Previsão de IA do Vertex | Previsão de IA do Vertex | Previsão da Vertex AI + endpoint do Private Service Connect | Vertex AI Prediction + acesso a serviços particulares (consulte "Como usar um endpoint do Private Service Connect (regra de encaminhamento) para acessar um serviço publicado") |
Latência de rede | Otimizado | Não otimizado | Otimizado | Latência P50 menor, latência P99 (cauda) maior |
Criptografia em trânsito | TLS com certificado assinado por uma AC | TLS com certificado assinado por uma AC | TLS opcional com certificado autoassinado | Nenhum |
Tempo limite de inferência | Configurável em até 1 hora | 60 segundos | Configurável em até 1 hora | 60 segundos |
Limite de tamanho do payload | 10 MB | 1,5 MB | 10 MB | 10 MB |
Cota do QPM | Ilimitado | 30.000 | Ilimitado | Ilimitado |
Suporte a protocolo | HTTP ou gRPC | HTTP | HTTP ou gRPC | HTTP |
Suporte a streaming | Sim (SSE) | Não | Sim (SSE) | Não |
Divisão de tráfego | Sim | Sim | Sim | Não |
Geração de registros de solicitação e resposta | Sim | Sim | Sim | Não |
Geração de registros de acesso | Sim | Sim | Sim | Não |
Modelos do AutoML e explicabilidade | Não | Sim | Não | Não |