Questa pagina è stata tradotta dall'API Cloud Translation.

Utilizzo di Vertex AI TensorBoard con addestramento personalizzato

Per visualizzare esempi di attivazione di TensorBoard per un job di addestramento personalizzato che utilizza container personalizzati, esegui i seguenti blocchi note nell'ambiente che preferisci:

"Addestramento personalizzato di Vertex AI TensorBoard con container predefiniti":
Apri in Colab | Apri in Colab Enterprise | Apri in Vertex AI Workbench | Visualizza su GitHub
"Addestramento personalizzato di Vertex AI TensorBoard con container personalizzati":
Apri in Colab | Apri in Colab Enterprise | Apri in Vertex AI Workbench | Visualizza su GitHub

Quando utilizzi l'addestramento personalizzato per addestrare i modelli, puoi configurare il job di addestramento in modo che carichi automaticamente i log di Vertex AI TensorBoard su Vertex AI TensorBoard.

Puoi utilizzare questa integrazione per monitorare l'addestramento quasi in tempo reale man mano che Vertex AI TensorBoard trasmette in streaming i log di Vertex AI TensorBoard man mano che vengono scritti in Cloud Storage.

Per la configurazione iniziale, vedi Configurazione di Vertex AI TensorBoard.

Modifiche allo script di addestramento

Lo script di addestramento deve essere configurato per scrivere i log di TensorBoard nel bucket Cloud Storage, la cui posizione verrà resa disponibile automaticamente dal servizio di addestramento Vertex AI tramite una variabile di ambiente predefinita AIP_TENSORBOARD_LOG_DIR.

In genere, puoi farlo fornendo os.environ['AIP_TENSORBOARD_LOG_DIR'] come directory dei log alle API di scrittura dei log di TensorBoard open source. La posizione di AIP_TENSORBOARD_LOG_DIR viene in genere impostata con la variabile staging_bucket.

Per configurare lo script di addestramento in TensorFlow 2.x, crea un callback TensorBoard e imposta la variabile log_dir su os.environ['AIP_TENSORBOARD_LOG_DIR']. Il callback TensorBoard viene quindi incluso nell'elenco dei callback model.fit di TensorFlow.

  tensorboard_callback = tf.keras.callbacks.TensorBoard(
       log_dir=os.environ['AIP_TENSORBOARD_LOG_DIR'],
       histogram_freq=1
  )
  
  model.fit(
       x=x_train,
       y=y_train,
       epochs=epochs,
       validation_data=(x_test, y_test),
       callbacks=[tensorboard_callback],
  )

Scopri di più su come Vertex AI imposta le variabili di ambiente nell'ambiente di addestramento personalizzato.

Creare un job di addestramento personalizzato

L'esempio seguente mostra come creare un job di addestramento personalizzato.

Per un esempio dettagliato di come creare un job di addestramento personalizzato, consulta Hello custom training. Per i passaggi per creare container di addestramento personalizzati, consulta Creare un'immagine container personalizzata per l'addestramento.

Per creare un job di addestramento personalizzato, utilizza l'SDK Vertex AI per Python o REST.

Python

def create_training_pipeline_custom_job_sample(
    project: str,
    location: str,
    staging_bucket: str,
    display_name: str,
    script_path: str,
    container_uri: str,
    model_serving_container_image_uri: str,
    dataset_id: Optional[str] = None,
    model_display_name: Optional[str] = None,
    args: Optional[List[Union[str, float, int]]] = None,
    replica_count: int = 0,
    machine_type: str = "n1-standard-4",
    accelerator_type: str = "ACCELERATOR_TYPE_UNSPECIFIED",
    accelerator_count: int = 0,
    training_fraction_split: float = 0.8,
    validation_fraction_split: float = 0.1,
    test_fraction_split: float = 0.1,
    sync: bool = True,
    tensorboard_resource_name: Optional[str] = None,
    service_account: Optional[str] = None,
):
    aiplatform.init(project=project, location=location, staging_bucket=staging_bucket)

    job = aiplatform.CustomTrainingJob(
        display_name=display_name,
        script_path=script_path,
        container_uri=container_uri,
        model_serving_container_image_uri=model_serving_container_image_uri,
    )

    # This example uses an ImageDataset, but you can use another type
    dataset = aiplatform.ImageDataset(dataset_id) if dataset_id else None

    model = job.run(
        dataset=dataset,
        model_display_name=model_display_name,
        args=args,
        replica_count=replica_count,
        machine_type=machine_type,
        accelerator_type=accelerator_type,
        accelerator_count=accelerator_count,
        training_fraction_split=training_fraction_split,
        validation_fraction_split=validation_fraction_split,
        test_fraction_split=test_fraction_split,
        sync=sync,
        tensorboard=tensorboard_resource_name,
        service_account=service_account,
    )

    model.wait()

    print(model.display_name)
    print(model.resource_name)
    print(model.uri)
    return model

project: . Puoi trovare questi ID nella pagina Benvenuto della console Google Cloud .
location: la località in cui eseguire CustomJob. Deve corrispondere alla località dell'istanza TensorBoard fornita.
staging_bucket: il bucket Cloud Storage in cui eseguire lo staging degli artefatti durante le chiamate API, inclusi i log di TensorBoard.
display_name: il nome visualizzato del job di addestramento personalizzato.
script_path: il percorso relativo alla directory di lavoro nel file system locale e in cui si trova lo script che funge da punto di ingresso per il codice di addestramento.
container_uri: l'URI dell'immagine del container di addestramento può essere Vertex AI. container di addestramento predefinito o un container personalizzato.
model_serving_container_image_uri: l'URI del container di gestione del modello adatto per la gestione del modello prodotto dallo script di addestramento.
dataset_id: il numero ID del set di dati da utilizzare per il training.
model_display_name: il nome visualizzato del modello addestrato.
args: argomenti della riga di comando da passare allo script Python.
replica_count: il numero di repliche dei worker da usare. In molti casi occorre impostare questo valore su 1 per il primo pool di worker.
machine_type: il tipo di VM da utilizzare. Per un elenco delle VM supportate, consulta Tipi di macchine.
accelerator_type: Il tipo di GPU da collegare a ogni VM nel pool di risorse. Per un elenco delle GPU supportate, consulta GPU.
accelerator_count Il numero di GPU da collegare a ogni VM nel pool di risorse. Il valore predefinito è 1.
training_fraction_split: la frazione del set di dati da utilizzare per addestrare il modello.
validation_fraction_split: la frazione del set di dati da utilizzare per convalidare il modello.
test_fraction_split: La frazione del set di dati da utilizzare per valutare il modello.
sync: Indica se eseguire questo metodo in modo sincrono.
tensorboard_resource_name: il nome della risorsa dell'istanza Vertex TensorBoard a cui CustomJob caricherà i log di TensorBoard.
service_account: obbligatorio quando viene eseguito con TensorBoard. Consulta Creare un account di servizio con le autorizzazioni richieste.

REST

Prima di utilizzare i dati della richiesta, apporta le seguenti sostituzioni:

LOCATION_ID: la località in cui eseguire CustomJob, ad esempio us-central1. Deve corrispondere alla località dell'istanza TensorBoard fornita.
PROJECT_ID: il tuo ID progetto
TENSORBOARD_INSTANCE_NAME: (obbligatorio) il nome completo dell'istanza Vertex AI TensorBoard esistente che archivia i log di Vertex AI TensorBoard:
projects/PROJECT_ID/locations/LOCATION_ID/tensorboards/TENSORBOARD_INSTANCE_ID
Nota: se l'istanza TensorBoard non è esistente, la creazione di customJobs genera un errore 404.
GCS_BUCKET_NAME: "${PROJECT_ID}-tensorboard-logs-${LOCATION}"
USER_SA_EMAIL: (obbligatorio) il account di servizio creato nei passaggi precedenti o il tuo account di servizio. "USER_SA_NAME@${PROJECT_ID}.iam.gserviceaccount.com"
TRAINING_CONTAINER: TRAINING_CONTAINER.
INVOCATION_TIMESTAMP: "$(date +'%Y%m%d-%H%M%S')"
JOB_NAME: "tensorboard-example-job-${INVOCATION_TIMESTAMP}"
BASE_OUTPUT_DIR: (obbligatorio) il Google Cloud percorso in cui viene scritto tutto l'output dell'addestramento. "gs://$GCS_BUCKET_NAME/$JOB_NAME"

Metodo HTTP e URL:

POST https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/customJobs

Corpo JSON della richiesta:

{
"displayName": JOB_NAME,
"jobSpec":{
"workerPoolSpecs":[
  {
    "replicaCount": "1",
     "machineSpec": {
        "machineType": "n1-standard-8",
      },
      "containerSpec": {
        "imageUri": TRAINING_CONTAINER,
      }
    }
  ],
  
  "base_output_directory": {
  "output_uri_prefix": BASE_OUTPUT_DIR,
   },
  "serviceAccount": USER_SA_EMAIL,
  "tensorboard": TENSORBOARD_INSTANCE_NAME,
  }
}

Per inviare la richiesta, espandi una di queste opzioni:

curl (Linux, macOS o Cloud Shell)

Nota: il seguente comando presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login oppure utilizzando Cloud Shell, che consente di accedere automaticamente all'interfaccia a riga di comando gcloud. Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json. Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:

cat > request.json << 'EOF'
{
"displayName": JOB_NAME,
"jobSpec":{
"workerPoolSpecs":[
  {
    "replicaCount": "1",
     "machineSpec": {
        "machineType": "n1-standard-8",
      },
      "containerSpec": {
        "imageUri": TRAINING_CONTAINER,
      }
    }
  ],
  
  "base_output_directory": {
  "output_uri_prefix": BASE_OUTPUT_DIR,
   },
  "serviceAccount": USER_SA_EMAIL,
  "tensorboard": TENSORBOARD_INSTANCE_NAME,
  }
}
EOF

Quindi esegui questo comando per inviare la richiesta REST:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/customJobs"

PowerShell (Windows)

Nota: il comando seguente presuppone che tu abbia eseguito l'accesso all'interfaccia a riga di comando gcloud con il tuo account utente eseguendo gcloud init o gcloud auth login . Puoi controllare l'account attualmente attivo eseguendo gcloud auth list.

Salva il corpo della richiesta in un file denominato request.json. Esegui questo comando nel terminale per creare o sovrascrivere questo file nella directory corrente:

@'
{
"displayName": JOB_NAME,
"jobSpec":{
"workerPoolSpecs":[
  {
    "replicaCount": "1",
     "machineSpec": {
        "machineType": "n1-standard-8",
      },
      "containerSpec": {
        "imageUri": TRAINING_CONTAINER,
      }
    }
  ],
  
  "base_output_directory": {
  "output_uri_prefix": BASE_OUTPUT_DIR,
   },
  "serviceAccount": USER_SA_EMAIL,
  "tensorboard": TENSORBOARD_INSTANCE_NAME,
  }
}
'@  | Out-File -FilePath request.json -Encoding utf8

Quindi esegui questo comando per inviare la richiesta REST:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION_ID-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION_ID/customJobs" | Select-Object -Expand Content

Dovresti ricevere una risposta JSON simile alla seguente:

{
  "name": "projects/PROJECT_ID/locations/LOCATION_ID/customJobs/CUSTOM_JOB_ID",
  "displayName": "DISPLAY_NAME",
  "jobSpec": {
    "workerPoolSpecs": [
      {
        "machineSpec": {
          "machineType": "n1-standard-8"
        },
        "replicaCount": "1",
        "diskSpec": {
          "bootDiskType": "pd-ssd",
          "bootDiskSizeGb": 100
        },
        "containerSpec": {
          "imageUri": "IMAGE_URI"
        }
      }
    ],
    "serviceAccount": "SERVICE_ACCOUNT",
    "baseOutputDirectory": {
      "outputUriPrefix": "OUTPUT_URI_PREFIX"
    },
    "tensorboard": "projects//locations/LOCATION_ID/tensorboards/tensorboard-id"
  },
  "state": "JOB_STATE_PENDING",
  "createTime": "CREATE-TIME",
  "updateTime": "UPDATE-TIME"
}

Passaggi successivi

Consulta Visualizzare Vertex AI TensorBoard.
Scopri come ottimizzare le prestazioni dei job di addestramento personalizzati utilizzando Cloud Profiler.