Un endpoint público dedicado es un endpoint público para la inferencia online. Ofrece las siguientes ventajas:
- Redes dedicadas: cuando envías una solicitud de inferencia a un endpoint público dedicado, se aísla del tráfico de otros usuarios.
- Latencia de red optimizada
- Compatibilidad con cargas útiles de mayor tamaño: hasta 10 MB.
- Tiempos de espera de solicitudes más largos: se pueden configurar hasta 1 hora.
- Preparado para la IA generativa: se admiten streaming y gRPC. El tiempo de espera de la inferencia se puede configurar hasta 1 hora.
Por estos motivos, se recomienda usar endpoints públicos específicos como práctica recomendada para ofrecer inferencias online de Vertex AI.
Para obtener más información, consulta Elegir un tipo de endpoint.
Crear un endpoint público específico y desplegar un modelo en él
Puedes crear un endpoint específico e implementar un modelo en él mediante la consolaGoogle Cloud . Para obtener más información, consulta Desplegar un modelo con la consola Google Cloud .
También puedes crear un endpoint público específico y desplegar un modelo en él mediante la API de Vertex AI de la siguiente manera:
- Crea un endpoint público específico. La configuración del tiempo de espera de la inferencia y de los ajustes de registro de solicitudes y respuestas se admite en el momento de la creación del endpoint.
- Despliega el modelo con la API de Vertex AI.
Obtener inferencias online a partir de un endpoint público específico
Los endpoints dedicados admiten los protocolos de comunicación HTTP y gRPC. En las solicitudes de gRPC, se debe incluir la cabecera x-vertex-ai-endpoint-id para identificar correctamente el endpoint. Se admiten las siguientes APIs:
- Predicen
- RawPredict
- StreamRawPredict
- Finalización de la conversación (solo en Model Garden)
Puedes enviar solicitudes de inferencia online a un endpoint público específico mediante el SDK de Vertex AI para Python. Para obtener más información, consulta Enviar una solicitud de inferencia online a un endpoint público específico.
Tutorial
Limitaciones
- No se admite la implementación de modelos de Gemini ajustados.
- Controles de Servicio de VPC no es compatible. Usa un punto final de Private Service Connect.
Siguientes pasos
- Consulta información sobre los tipos de endpoint de la inferencia online de Vertex AI.