Questa pagina mostra come eseguire un job di addestramento personalizzato su una risorsa permanente utilizzando l'interfaccia a riga di comando Google Cloud CLI'SDK Vertex AI per Python e l'API REST.
Di solito, quando crei un job di addestramento personalizzato, devi specificare le risorse di calcolo su cui il job viene creato ed eseguito. Dopo aver creato una risorsa permanente, puoi configurare il job di addestramento personalizzato in modo che venga eseguito su uno o più pool di risorse di quella risorsa permanente. L'esecuzione di un job di addestramento personalizzato su una risorsa permanente riduce notevolmente i tempi di avvio del job altrimenti necessari per la creazione delle risorse di calcolo.
Ruoli obbligatori
Per ottenere l'autorizzazione necessaria per eseguire job di addestramento personalizzato su una risorsa persistente,
chiedi all'amministratore di concederti il ruolo IAM Utente Vertex AI (roles/aiplatform.user
) nel progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Questo ruolo predefinito contiene l'autorizzazione
aiplatform.customJobs.create
necessaria per eseguire job di addestramento personalizzati su una risorsa permanente.
Potresti anche ottenere questa autorizzazione con ruoli personalizzati o altri ruoli predefiniti.
Creare un job di addestramento che viene eseguito su una risorsa permanente
Per creare un job di addestramento personalizzato che venga eseguito su una risorsa persistente, apporta le seguenti modifiche alle istruzioni standard per la creazione di un job di addestramento personalizzato:
gcloud
- Specifica il flag
--persistent-resource-id
e imposta il valore sull'ID della risorsa permanente (PERSISTENT_RESOURCE_ID) che vuoi utilizzare. - Specifica il flag
--worker-pool-spec
in modo che i valori permachine-type
edisk-type
corrispondano esattamente a un pool di risorse corrispondente della risorsa persistente. Specifica un valore--worker-pool-spec
per l'addestramento con un nodo singolo e più valori per l'addestramento distribuito. - Specifica un valore
replica-count
minore o uguale areplica-count
omax-replica-count
del pool di risorse corrispondente.
Python
Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, consulta Installare l'SDK Vertex AI per Python. Per saperne di più, consulta la documentazione di riferimento dell'API Python.
REST
- Specifica il parametro
persistent_resource_id
e imposta il valore sull'ID della risorsa permanente (PERSISTENT_RESOURCE_ID) che vuoi utilizzare. - Specifica il parametro
worker_pool_specs
in modo che i valori dimachine_spec
edisk_spec
per ogni pool di risorse corrispondano esattamente a un pool di risorse corrispondente della risorsa permanente. Specifica unmachine_spec
per l'addestramento con un nodo singolo e più di uno per l'addestramento distribuito. - Specifica un valore
replica_count
inferiore o uguale al valorereplica_count
omax_replica_count
del pool di risorse corrispondente, escludendo il numero di repliche di altri job in esecuzione in quel pool di risorse.
Passaggi successivi
- Scopri di più sulle risorse permanenti.
- Crea e utilizza una risorsa permanente.
- Ottenere informazioni su una risorsa permanente.
- Riavvia una risorsa permanente.
- Eliminare una risorsa permanente.