Se usó la API de Cloud Translation para traducir esta página.

Implementar un modelo en un extremo

Antes de poder obtener inferencias en línea de un modelo entrenado, debes implementarlo en un extremo. Esto se puede hacer con la consola de Google Cloud , Google Cloud CLI o la API de Vertex AI.

En este documento, se describe el proceso para implementar modelos en extremos.

Qué sucede cuando implementas un modelo

La implementación de un modelo asocia recursos físicos con el modelo para que pueda entregar inferencias en línea con baja latencia.

Puedes implementar varios modelos en un extremo o puedes implementar el mismo modelo en varios extremos. Para obtener más información, consulta Motivos para implementar más de un modelo en el mismo extremo.

Prepárate para implementar un modelo en un extremo

Durante la implementación del modelo, toma las siguientes decisiones importantes sobre cómo ejecutar la inferencia en línea:

Recurso creado	Configuración especificada durante la creación del recurso
Extremo	Ubicación en la que se ejecutan las inferencias
Modelo	Contenedor que se usará (`ModelContainerSpec`)
DeployedModel	Recursos de procesamiento que se usarán para la inferencia en línea

Después de que el modelo se implementa en el extremo, no se puede cambiar esta configuración de implementación. Para cambiarlos, debes volver a implementar tu modelo.

El primer paso en el proceso de implementación es decidir qué tipo de extremo usar. Para obtener más información, consulta Elige un tipo de extremo.

A continuación, asegúrate de que el modelo sea visible en Vertex AI Model Registry. Esto es necesario para que el modelo se pueda implementar. Para obtener información acerca de Model Registry, incluido cómo importar artefactos del modelo o crearlos directamente en Model Registry, consulta Introducción a Vertex AI Model Registry.

La siguiente decisión que debes tomar es qué recursos de procesamiento usar para la publicación del modelo. El tipo de entrenamiento del modelo (AutoML o personalizado) y el tipo de datos (AutoML) determinan los tipos de recursos físicos disponibles para el modelo. Después de implementar el modelo, puedes mutate algunos de esos recursos sin crear una implementación nueva.

El recurso de extremo proporciona el extremo del servicio (URL) que usas para solicitar la inferencia. Por ejemplo:

   https://us-central1-aiplatform.googleapis.com/v1/projects/{project}/locations/{location}/endpoints/{endpoint}:predict

Implementa un modelo en un extremo

Puedes implementar un modelo en un endpoint con la consola Google Cloud o con gcloud CLI o la API de Vertex AI.

Implementa un modelo en un extremo público con la consola de Google Cloud

En la consola de Google Cloud , puedes implementar un modelo en un extremo público dedicado o compartido existente, o bien puedes crear un extremo nuevo durante el proceso de implementación. Para obtener más información, consulta Implementa un modelo con la consola de Google Cloud .

Implementa un modelo en un extremo público con gcloud CLI o la API de Vertex AI

Cuando implementas un modelo con gcloud CLI o la API de Vertex AI, primero debes crear un extremo dedicado o compartido y, luego, implementar el modelo en él. Para obtener detalles, consulta:

Implementa un modelo en un extremo de Private Service Connect

Para obtener más detalles, consulta Usa extremos de Private Service Connect para la inferencia en línea.

Usa una implementación progresiva para actualizar un modelo implementado

Puedes usar una implementación continua para reemplazar un modelo implementado por una versión nueva del mismo modelo. El nuevo modelo reutiliza los recursos de procesamiento del anterior. Para obtener más información, consulta Cómo usar una implementación continua para reemplazar un modelo implementado.

Anula la implementación de un modelo y borra el extremo

Puedes anular la implementación de un modelo y borrar el extremo. Para obtener más detalles, consulta Anula la implementación de un modelo y borra el extremo.

Razones para implementar más de un modelo en el mismo extremo

Implementar dos modelos en el mismo extremo te permite reemplazar de forma gradual un modelo por el otro. Por ejemplo, supongamos que usas un modelo y encuentras una manera de aumentar la exactitud de ese modelo con datos de entrenamiento nuevos. Sin embargo, no quieres actualizar tu aplicación para que apunte a una URL de extremo nueva y tampoco deseas crear cambios repentinos en la aplicación. Puedes agregar el modelo nuevo al mismo extremo, que entrega un pequeño porcentaje de tráfico, y aumentar de forma gradual la división del tráfico del modelo nuevo hasta que entregue el 100% del tráfico.

Debido a que los recursos están asociados con el modelo en lugar del extremo, puedes implementar modelos de diferentes tipos en el mismo extremo. Sin embargo, la práctica recomendada es implementar modelos de un tipo específico (por ejemplo, tabular de AutoML o entrenado de forma personalizada) en un extremo. Esta configuración es más fácil de administrar.

Motivos para implementar un modelo en más de un extremo

Es posible que desees implementar tus modelos con diferentes recursos para diferentes entornos de aplicaciones, como pruebas y producción. Es posible que también quieras admitir diferentes SLO para tus solicitudes de inferencia. Quizás una de tus aplicaciones necesite un rendimiento mucho más alto que las otras. En este caso, puedes implementar ese modelo en un extremo de mayor rendimiento con más recursos de máquina. Para optimizar los costos, también puedes implementar el modelo en un extremo de menor rendimiento con menos recursos de máquina.

Comportamiento del escalamiento

El ajuste de escala automático de Vertex AI Inference ajusta la cantidad de nodos de inferencia según la cantidad de solicitudes simultáneas. Esto te permite ajustarte de forma dinámica a las cargas de solicitudes cambiantes mientras administras los costos. Para obtener más información, consulta Cómo escalar nodos de inferencia para Vertex AI Inference.

¿Qué sigue?

Elige un tipo de extremo.
Implementa un modelo con la consola de Google Cloud .
Obtén información sobre el registro de solicitudes y respuestas de inferencia para extremos dedicados y extremos de Private Service Connect.
Obtén más información para obtener una inferencia en línea.
Obtén más información para cambiar la configuración predeterminada para el registro de inferencia.