En esta página se muestra cómo ejecutar una tarea de entrenamiento personalizada en un recurso persistente mediante la CLI de Google Cloud, el SDK de Vertex AI para Python y la API REST.
Normalmente, cuando crea una tarea de entrenamiento personalizada, debe especificar los recursos de computación que la tarea crea y en los que se ejecuta. Después de crear un recurso persistente, puedes configurar el trabajo de entrenamiento personalizado para que se ejecute en uno o varios grupos de recursos de ese recurso persistente. Si ejecutas un trabajo de entrenamiento personalizado en un recurso persistente, se reduce significativamente el tiempo de inicio del trabajo que, de lo contrario, se necesitaría para crear recursos de computación.
Roles obligatorios
Para obtener el permiso que necesitas para ejecutar trabajos de entrenamiento personalizados en un recurso persistente,
pide a tu administrador que te conceda el
rol de gestión de identidades y accesos Usuario de Vertex AI (roles/aiplatform.user
)
en tu proyecto.
Para obtener más información sobre cómo conceder roles, consulta el artículo Gestionar el acceso a proyectos, carpetas y organizaciones.
Este rol predefinido contiene el permiso aiplatform.customJobs.create
, que es necesario para ejecutar trabajos de entrenamiento personalizados en un recurso persistente.
También puedes obtener este permiso con roles personalizados u otros roles predefinidos.
Crear una tarea de entrenamiento que se ejecute en un recurso persistente
Para crear una tarea de entrenamiento personalizada que se ejecute en un recurso persistente, haz las siguientes modificaciones en las instrucciones estándar para crear una tarea de entrenamiento personalizada:
gcloud
- Especifica la marca
--persistent-resource-id
y asigna el valor al ID del recurso persistente (PERSISTENT_RESOURCE_ID) que quieras usar. - Especifica la marca
--worker-pool-spec
de forma que los valores demachine-type
ydisk-type
coincidan exactamente con un grupo de recursos correspondiente del recurso persistente. Especifica un--worker-pool-spec
para el entrenamiento de un solo nodo y varios para el entrenamiento distribuido. - Especifica un
replica-count
igual o inferior alreplica-count
o almax-replica-count
del grupo de recursos correspondiente.
Python
Para saber cómo instalar o actualizar el SDK de Vertex AI para Python, consulta Instalar el SDK de Vertex AI para Python. Para obtener más información, consulta la documentación de referencia de la API Python.
REST
- Especifica el parámetro
persistent_resource_id
y asigna el valor al ID del recurso persistente (PERSISTENT_RESOURCE_ID) que quieras usar. - Especifique el parámetro
worker_pool_specs
de forma que los valores demachine_spec
ydisk_spec
de cada grupo de recursos coincidan exactamente con un grupo de recursos correspondiente del recurso persistente. Especifica unmachine_spec
para el entrenamiento de un solo nodo y varios para el entrenamiento distribuido. - Especifica un valor de
replica_count
inferior o igual alreplica_count
o almax_replica_count
del grupo de recursos correspondiente, sin incluir el número de réplicas de ningún otro trabajo que se esté ejecutando en ese grupo de recursos.
Siguientes pasos
- Consulta información sobre los recursos persistentes.
- Crea y usa un recurso persistente.
- Obtener información sobre un recurso persistente.
- Reiniciar un recurso persistente.
- Eliminar un recurso persistente.