Esegui job di addestramento personalizzato su una risorsa permanente

Questa pagina mostra come eseguire un job di addestramento personalizzato su una risorsa permanente utilizzando Google Cloud CLI, l'SDK Vertex AI per Python e l'API REST.

Normalmente, quando crei un job di addestramento personalizzato, devi specificare le risorse di calcolo su cui viene creato ed eseguito il job. Dopo aver creato una risorsa permanente, puoi configurare il job di addestramento personalizzato in modo che venga eseguito su uno o più pool di risorse della risorsa permanente. L'esecuzione di un job di addestramento personalizzato su una risorsa permanente riduce in modo significativo il tempo di avvio del job altrimenti necessario per la creazione delle risorse di calcolo.

Ruoli obbligatori

Per ottenere l'autorizzazione necessaria per eseguire job di addestramento personalizzato su una risorsa permanente, chiedi all'amministratore di concederti il ruolo IAM Utente Vertex AI (roles/aiplatform.user) per il tuo progetto. Per saperne di più sulla concessione dei ruoli, consulta Gestire l'accesso.

Questo ruolo predefinito contiene l'autorizzazione aiplatform.customJobs.create, necessaria per eseguire job di addestramento personalizzato su una risorsa permanente.

Potresti riuscire a ottenere questa autorizzazione anche con i ruoli personalizzati o altri ruoli predefiniti.

Crea un job di addestramento eseguito su una risorsa permanente

Per creare job di addestramento personalizzato eseguiti su una risorsa permanente, apporta le seguenti modifiche alle istruzioni standard per la creazione di un job di addestramento personalizzato:

gcloud

  • Specifica il flag --persistent-resource-id e imposta il valore sull'ID della risorsa permanente (PERSISTENT_RESOURCE_ID) che vuoi utilizzare.
  • Specifica il flag --worker-pool-spec in modo che i valori per machine-type e disk-type corrispondano esattamente a un pool di risorse corrispondente della risorsa permanente. Specifica un --worker-pool-spec per l'addestramento a nodo singolo e uno per l'addestramento distribuito.
  • Specifica un valore replica-count minore o uguale a replica-count o max-replica-count del pool di risorse corrispondente.

Python

Per scoprire come installare o aggiornare l'SDK Vertex AI per Python, vedi Installare l'SDK Vertex AI per Python. Per maggiori informazioni, consulta la documentazione di riferimento dell'API Python.

def create_custom_job_on_persistent_resource_sample(
    project: str,
    location: str,
    staging_bucket: str,
    display_name: str,
    container_uri: str,
    persistent_resource_id: str,
    service_account: Optional[str] = None,
) -> None:
    aiplatform.init(
        project=project, location=location, staging_bucket=staging_bucket
    )

    worker_pool_specs = [{
        "machine_spec": {
            "machine_type": "n1-standard-4",
            "accelerator_type": "NVIDIA_TESLA_K80",
            "accelerator_count": 1,
        },
        "replica_count": 1,
        "container_spec": {
            "image_uri": container_uri,
            "command": [],
            "args": [],
        },
    }]

    custom_job = aiplatform.CustomJob(
        display_name=display_name,
        worker_pool_specs=worker_pool_specs,
        persistent_resource_id=persistent_resource_id,
    )

    custom_job.run(service_account=service_account)

REST

  • Specifica il parametro persistent_resource_id e imposta il valore sull'ID della risorsa permanente (PERSISTENT_RESOURCE_ID) che vuoi utilizzare.
  • Specifica il parametro worker_pool_specs in modo che i valori di machine_spec e disk_spec per ogni pool di risorse corrispondano esattamente a un pool di risorse corrispondente della risorsa permanente. Specifica un machine_spec per l'addestramento con nodo singolo e un multiplo per l'addestramento distribuito.
  • Specifica un valore replica_count minore o uguale a replica_count o max_replica_count del pool di risorse corrispondente, escluso il conteggio delle repliche di qualsiasi altro job in esecuzione sul pool di risorse.

Passaggi successivi