Desplegar un modelo con la consola de Google Cloud

En la Google Cloud consola, puedes crear un endpoint público y desplegar un modelo en él.

Los modelos se pueden desplegar desde la página Predicción online o desde la página Registro de modelos.

Desplegar un modelo desde la página Predicción online

En la página Predicción online, puedes crear un endpoint y desplegar uno o varios modelos en él de la siguiente manera:

  1. En la Google Cloud consola, en la sección Vertex AI, ve a la página Predicción online.

    Ir a la página Predicción online

  2. Haz clic en Crear.

  3. En el panel Nuevo endpoint:

    1. Escribe el nombre del endpoint.

    2. Seleccione Estándar como tipo de acceso.

    3. Para crear un endpoint público dedicado (no compartido), marca la casilla Habilitar DNS dedicado.

    4. Haz clic en Continuar.

  4. En el panel Configuración del modelo, haz lo siguiente:

    1. Selecciona tu modelo en la lista desplegable.

    2. Elige la versión del modelo en la lista desplegable.

    3. Introduce el porcentaje de División del tráfico del modelo.

    4. Haz clic en Listo.

    5. Repite estos pasos con el resto de los modelos que quieras implementar.

Desplegar un modelo desde la página Registro de modelos

En la página Registro de modelos, puede desplegar un modelo en uno o varios puntos finales nuevos o disponibles de la siguiente manera:

  1. En la Google Cloud consola, en la sección Vertex AI, ve a la página Modelos.

    Ir a la página Modelos

  2. Haz clic en el nombre y el ID de versión del modelo que quieras implementar para abrir su página de detalles.

  3. Selecciona la pestaña Implementar y probar.

    Si tu modelo ya se ha desplegado en algún endpoint, aparecerá en la sección Desplegar tu modelo.

  4. Haz clic en Implementar en endpoint.

  5. Para desplegar tu modelo en un nuevo endpoint, sigue estos pasos:

    1. Selecciona Crear endpoint.
    2. Asigna un nombre al nuevo endpoint.
    3. Para crear un endpoint público dedicado (no compartido), marca la casilla Habilitar DNS dedicado.
    4. Haz clic en Continuar.

    Para desplegar tu modelo en un endpoint ya creado, sigue estos pasos:

    1. Selecciona Añadir a endpoint disponible.
    2. Selecciona el endpoint de la lista desplegable.
    3. Haz clic en Continuar.

    Puedes desplegar varios modelos en un endpoint o desplegar el mismo modelo en varios endpoints.

  6. Si despliegas tu modelo en un punto final que ya tiene uno o varios modelos desplegados, debes actualizar el porcentaje de División del tráfico del modelo que vas a desplegar y de los modelos que ya están desplegados para que todos los porcentajes sumen el 100%.

  7. Si vas a desplegar el modelo en un nuevo endpoint, acepta el valor 100 en División del tráfico. De lo contrario, ajuste los valores de división del tráfico de todos los modelos del endpoint para que sumen 100.

  8. Indica el número mínimo de nodos de computación que quieres proporcionar para tu modelo.

    Es el número de nodos que deben estar disponibles para el modelo en todo momento.

    Se te cobra por los nodos utilizados, ya sea para gestionar la carga de inferencia o para los nodos de reserva (mínimo), incluso sin tráfico de inferencia. Consulta la página de precios.

    El número de nodos de computación puede aumentar si es necesario para gestionar el tráfico de inferencias, pero nunca superará el número máximo de nodos.

  9. Para usar el autoescalado, introduce el Número máximo de nodos de computación al que quieres que Vertex AI aumente la escala.

  10. Selecciona el Tipo de máquina.

    Cuanto mayores sean los recursos de la máquina, mayor será el rendimiento de la inferencia y los costes. Compara los tipos de máquinas disponibles.

  11. Selecciona un Tipo de acelerador y un Número de aceleradores.

    Esta opción se muestra si has habilitado el uso de aceleradores al importar o crear el modelo.

    Para consultar el número de aceleradores, consulta la tabla de GPUs para ver los números válidos de GPUs que puedes usar con cada tipo de máquina de CPU. El número de aceleradores hace referencia al número de aceleradores por nodo, no al número total de aceleradores de tu implementación.

  12. Si quieres usar una cuenta de servicio personalizada para la implementación, selecciona una cuenta de servicio en el cuadro desplegable Cuenta de servicio.

  13. Consulta cómo cambiar la configuración predeterminada del registro de inferencias.

  14. Haz clic en Hecho en el modelo y, cuando todos los porcentajes de División del tráfico sean correctos, haz clic en Continuar.

    Se muestra la región en la que se implementa el modelo. Debe ser la región en la que has creado el modelo.

  15. Haga clic en Desplegar para desplegar el modelo en el endpoint.

Siguientes pasos