Questa versione precedente di AI Platform Training è ritirata e non sarà più disponibile su Google Cloud dopo il 31 gennaio 2025. Esegui la migrazione delle tue risorse all'addestramento personalizzato di Vertex AI per accedere a nuove funzionalità di machine learning non disponibili nella piattaforma AI.

Questa pagina è stata tradotta dall'API Cloud Translation.

TF_CONFIG e addestramento distribuito

Quando esegui un job di addestramento, AI Platform Training imposta una variabile di ambiente chiamata TF_CONFIG su ogni istanza di macchina virtuale (VM) che fa parte del job. Il codice di addestramento, che viene eseguito su ogni VM, può utilizzare la variabile di ambiente TF_CONFIG per accedere ai dettagli del job di addestramento e al ruolo della VM su cui viene eseguito.

TensorFlow utilizza la variabile di ambiente TF_CONFIG per semplificare l'addestramento distribuito, ma probabilmente non dovrai accedervi direttamente nel codice di addestramento. Questo documento descrive la variabile di ambiente TF_CONFIG e il relativo utilizzo nei job TensorFlow distribuiti e nei job di ottimizzazione degli iperparametri.

Il formato di `TF_CONFIG`

AI Platform Training imposta la variabile di ambiente TF_CONFIG su ogni VM di ogni job di addestramento per soddisfare le specifiche richieste da TensorFlow per l'addestramento distribuito. Tuttavia, AI Platform Training imposta anche campi aggiuntivi nella variabile TF_CONFIG environment oltre a quanto richiesto da TensorFlow.

La variabile di ambiente TF_CONFIG è una stringa JSON con il seguente formato:

TF_CONFIG campi

cluster

La descrizione del cluster TensorFlow. Un dizionario che mappa uno o più nomi di attività (chief, worker, ps o master) a elenchi di indirizzi di rete in cui queste attività vengono eseguite. Per un determinato job di addestramento, questo dizionario è lo stesso su ogni VM.

Si tratta di un primo argomento valido per il tf.train.ClusterSpec costruttore. Tieni presente che questo dizionario non contiene mai evaluator come chiave, poiché i valutatori non sono considerati parte del cluster di addestramento anche se li utilizzi per il tuo lavoro.

Scopri la differenza tra chief e master in un'altra sezione di questo documento.

task

La descrizione dell'attività della VM in cui è impostata questa variabile di ambiente. Per un determinato job di addestramento, questo dizionario è diverso su ogni VM. Puoi utilizzare queste informazioni per personalizzare il codice eseguito su ogni VM in un job di addestramento distribuito. Puoi anche utilizzarlo per modificare il comportamento del codice di addestramento per prove diverse di un job di ottimizzazione degli iperparametri.

Questo dizionario include le seguenti coppie chiave-valore:

`task` campi
`type`	Il tipo di attività eseguita da questa VM. Questo valore è impostato su `worker` sui worker, `ps` sui server parametri e `evaluator` sugli valutatori. Nel worker principale del job, il valore è impostato su `chief` o `master`. Scopri di più sulla differenza tra i due nella sezione `chief` e `master` di questo documento.
`index`	L'indice a partire da zero dell'attività. Ad esempio, se il tuo job di addestramento include due worker, questo valore è impostato su `0` su uno di essi e su `1` sull'altro.
`trial`	L'ID della prova di ottimizzazione degli iperparametri attualmente in esecuzione su questa VM. Questo campo viene impostato solo se il job di addestramento corrente è un job di ottimizzazione degli iperparametri. Per i job di ottimizzazione degli iperparametri, AI Platform Training esegue il codice di addestramento ripetutamente in molte prove con iperparametri diversi ogni volta. Questo campo contiene il numero della prova corrente, che inizia da `1` per la prima prova.
`cloud`	Un ID utilizzato internamente da AI Platform Training. Puoi ignorare questo campo.

job

L'attributo TrainingInput che hai fornito per creare il job di addestramento corrente, rappresentato come un dizionario.

environment

La stringa cloud.

Per i job di addestramento dei container personalizzati, AI Platform Training imposta una variabile di ambiente aggiuntiva chiamata CLUSTER_SPEC, che ha un formato simile a TF_CONFIG, ma con diverse importanti differenze. Scopri di più sulla variabile di ambiente CLUSTER_SPEC.

Esempio

Il seguente codice di esempio stampa la variabile di ambienteTF_CONFIG nei log di addestramento:

import json
import os

tf_config_str = os.environ.get('TF_CONFIG')
tf_config_dict  = json.loads(tf_config_str)

# Convert back to string just for pretty printing
print(json.dumps(tf_config_dict, indent=2))

In un job di ottimizzazione degli iperparametri eseguito nella versione di runtime 2.1 o successive e che utilizza un worker master, due worker e un server di parametri, questo codice genera il seguente log per uno dei worker durante la prima prova di ottimizzazione degli iperparametri. L'output di esempio nasconde il campo job per brevità e sostituisce alcuni ID con valori generici.

{
  "cluster": {
    "chief": [
      "cmle-training-chief-[ID_STRING_1]-0:2222"
    ],
    "ps": [
      "cmle-training-ps-[ID_STRING_1]-0:2222"
    ],
    "worker": [
      "cmle-training-worker-[ID_STRING_1]-0:2222",
      "cmle-training-worker-[ID_STRING_1]-1:2222"
    ]
  },
  "environment": "cloud",
  "job": {
    ...
  },
  "task": {
    "cloud": "[ID_STRING_2]",
    "index": 0,
    "trial": "1",
    "type": "worker"
  }
}

`chief` rispetto a `master`

La VM worker principale in AI Platform Training corrisponde al chieftipo di compito in TensorFlow. Sebbene TensorFlow possa nominare un'attività worker come chief, AI Platform Training designa sempre esplicitamente un chief.

master è un tipo di attività deprecato in TensorFlow. master rappresentava un'attività che svolgeva un ruolo simile a chief, ma fungeva anche da evaluator in alcune configurazioni. TensorFlow 2 non supporta le variabili di ambiente TF_CONFIG che contengono un'attività master.

AI Platform Training utilizza chief nei campi cluster e task della variabile di ambiente TF_CONFIG se una delle seguenti condizioni è vera:

Stai eseguendo un job di addestramento che utilizza la versione dell'ambiente di runtime 2.1 o successiva.
Hai configurato il job di addestramento in modo da utilizzare uno o più valutatori. In altre parole, hai impostato trainingInput.evaluatorCount del tuo job su 1 o superiore.
Il tuo job utilizza un container personalizzato e hai impostato trainingInput.useChiefInTfConfig su true.

In caso contrario, per motivi di compatibilità, AI Platform Training utilizza il tipo di attività master deprecato anziché chief.

Quando utilizzare `TF_CONFIG`

Come accennato in una sezione precedente, probabilmente non è necessario interagire con la variabile di ambiente TF_CONFIG direttamente nel codice di addestramento. Accedi alla variabile di ambiente TF_CONFIG solo se le strategie di distribuzione di TensorFlow e il flusso di lavoro di ottimizzazione degli iperparametri standard di AI Platform Training, entrambi descritti nelle sezioni successive, non funzionano per il tuo job.

Addestramento distribuito

AI Platform Training imposta la variabile di ambiente TF_CONFIG per estendere le specifiche richieste da TensorFlow per l'addestramento distribuito.

Per eseguire l'addestramento distribuito con TensorFlow, utilizza l'tf.distribute.Strategy API. In particolare, ti consigliamo di utilizzare l'API Keras insieme a MultiWorkerMirroredStrategy o, se specifichi i server di parametri per il tuo job, con ParameterServerStrategy. Tuttavia, tieni presente che al momento TensorFlow fornisce solo il supporto sperimentale per queste strategie.

Queste strategie di distribuzione utilizzano la variabile di ambiente TF_CONFIG per assegnare ruoli a ogni VM nel job di addestramento e per facilitare la comunicazione tra le VM. Non è necessario accedere direttamente alla variabile di ambiente TF_CONFIG nel codice di addestramento, perché è gestita da TensorFlow.

Analizza direttamente la variabile di ambiente TF_CONFIG solo se vuoi personalizzare il comportamento delle diverse VM che eseguono il job di addestramento.

Ottimizzazione degli iperparametri

Quando esegui un job di ottimizzazione degli iperparametri, AI Platform Training fornisce diversi argomenti al codice di addestramento per ogni prova. Il codice di addestramento non deve necessariamente essere a conoscenza della prova attualmente in esecuzione. Inoltre, AI Platform Training fornisce strumenti per monitorare l'avanzamento dei job di ottimizzazione degli iperparametri.

Se necessario, il codice può leggere il numero di prova corrente dal campo trial del campo task della variabile di ambiente TF_CONFIG.

Passaggi successivi

Consulta un tutorial nella documentazione di TensorFlow sull'addestramento con più lavoratori con Keras
Scopri di più sull'addestramento distribuito con container personalizzati in AI Platform Training.
Scopri come implementare l'ottimizzazione degli iperparametri per i job di addestramento.