Elige un tipo de extremo

En la siguiente tabla, se comparan los tipos de extremos compatibles para la entrega de predicciones en línea de Vertex AI y se indican los tipos que se recomiendan como prácticas recomendadas.

Extremo público dedicado (recomendado) Extremo público Extremo de Private Service Connect (recomendado) Extremo privado
Objetivo Experiencia de red predeterminada. Permite enviar solicitudes desde Internet público (si no están habilitados los Controles del servicio de VPC). Experiencia de red predeterminada. Permite enviar solicitudes desde Internet público (si no están habilitados los Controles del servicio de VPC). Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red, ya que garantiza que las solicitudes y respuestas se enruten de forma privada. Se recomienda para aplicaciones empresariales de producción. Mejora la latencia y la seguridad de la red, ya que garantiza que las solicitudes y respuestas se enruten de forma privada.
Redes de entrada Internet pública con un plano de red dedicado Internet pública con un plano de red compartido Redes privadas con el extremo de Private Service Connect Redes privadas con acceso privado a servicios (intercambio de tráfico entre redes de VPC)
Redes de salida Internet pública Internet pública No compatible Redes privadas con acceso privado a servicios (intercambio de tráfico entre redes de VPC)
Controles del servicio de VPC No compatible. En su lugar, usa el extremo de Private Service Connect. Admitido Compatible Admitido
Costo Vertex AI Prediction Vertex AI Prediction Vertex AI Prediction + extremo de Service Connect privado Predicción de Vertex AI + Acceso a servicios privados (consulta "Cómo usar un extremo de Private Service Connect (regla de reenvío) para acceder a un servicio publicado")
Latencia de red Optimizado No optimizado Optimizado Latencia de P50 más baja y latencia de P99 (final) más alta
Encriptación en tránsito TLS con certificado firmado por la AC TLS con certificado firmado por la AC TLS opcional con certificado autofirmado Ninguno
Tiempo de espera de inferencia Configurable hasta por 1 hora 60 segundos Configurable hasta por 1 hora 60 segundos
Límite de tamaño de la carga útil 10 MB 1.5 MB 10 MB 10 MB
Cuota de QPM Ilimitado 30,000 Ilimitado Ilimitado
Compatibilidad con protocolos HTTP o gRPC HTTP HTTP o gRPC HTTP
Compatibilidad con la transmisión Sí (SSE) No Sí (SSE) No
División del tráfico No
Registro de solicitudes y respuestas No
Registro de acceso No
Modelos de AutoML y explicabilidad No No No