Addestramento di DLRM e DCN su Cloud TPU (TF 2.x)

Questo tutorial mostra come addestrare modelli di ranking DLRM e DCN v2 che possono essere utilizzati per attività come la previsione della percentuale di clic (CTR). Consulta la nota in Configurare il modello per l'esecuzione del modello DLRM o DCN per scoprire come impostare i parametri per l'addestramento di un modello di ranking DLRM o DCN v2.

Gli input del modello sono caratteristiche numeriche e categoriche e l'output è uno scalare (ad esempio la probabilità di clic). Il modello può essere addestrato e valutato su Cloud TPU. I modelli di ranking profondo utilizzano sia la memoria che ad alta intensità (per l'incorporamento di tabelle/ricerca) che ad alta intensità di calcolo per le reti profonde (MLP). Le TPU sono progettate per entrambi.

Il modello utilizza un livello TPUEmbedding per le caratteristiche categoriche. L'incorporamento di TPU supporta tabelle di incorporamento di grandi dimensioni con ricerca rapida. Le dimensioni delle tabelle di incorporamento vengono scalate in modo lineare in base alle dimensioni di un pod TPU. È possibile utilizzare tabelle di incorporamento fino a 90 GB per TPU v3-8, 5,6 TB per un pod v3-512 e 22,4 TB per un pod di TPU v3-2048.

Il codice del modello si trova nella libreria dei motori per suggerimenti TensorFlow, mentre la pipeline di input, la configurazione e il ciclo di addestramento sono descritti in TensorFlow Model Garden.

Obiettivi

Configurare l'ambiente di addestramento
Esegui il job di addestramento utilizzando dati sintetici
Verifica i risultati dell'output

Costi

In questo documento, utilizzi i seguenti componenti fatturabili di Google Cloud:

Compute Engine
Cloud TPU
Cloud Storage

Per generare una stima dei costi in base all'utilizzo previsto, utilizza il Calcolatore prezzi. I nuovi utenti di Google Cloud potrebbero essere idonei per una prova gratuita.

Prima di iniziare

Prima di iniziare questo tutorial, verifica che il tuo progetto Google Cloud sia configurato correttamente.

Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.

Questa procedura dettagliata utilizza i componenti fatturabili di Google Cloud. Consulta la pagina dei prezzi di Cloud TPU per stimare i costi. Assicurati di pulire le risorse che hai creato quando hai finito di utilizzarle per evitare addebiti inutili.

Configura le risorse

Questa sezione fornisce informazioni sulla configurazione delle risorse Cloud Storage, VM e Cloud TPU utilizzate da questo tutorial.

Apri una finestra di Cloud Shell.

Apri Cloud Shell
Crea una variabile per l'ID del progetto.
```
export PROJECT_ID=project-id
```
Configura Google Cloud CLI per utilizzare il progetto in cui vuoi creare Cloud TPU.

Nota: per ulteriori informazioni sul comando gcloud, consulta la documentazione di riferimento per Google Cloud CLI.
```
gcloud config set project ${PROJECT_ID}
```
La prima volta che esegui questo comando in una nuova VM Cloud Shell, viene visualizzata una pagina Authorize Cloud Shell. Fai clic su Authorize in fondo alla pagina per consentire a gcloud di effettuare chiamate API con le tue credenziali.

Creare un account di servizio per il progetto Cloud TPU.

gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

Il comando restituisce un account di servizio Cloud TPU con il seguente formato:

service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com

Crea un bucket Cloud Storage utilizzando il comando seguente, in cui l'opzione -l specifica la regione in cui deve essere creato il bucket. Consulta i tipi e le zone per ulteriori dettagli su zone e regioni:
```
gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 gs://bucket-name
```
Questo bucket Cloud Storage archivia i dati utilizzati per addestrare il modello e i risultati dell'addestramento. Lo strumento gcloud compute tpus execution-groups utilizzato in questo tutorial configura le autorizzazioni predefinite per l'account di servizio Cloud TPU che hai configurato nel passaggio precedente. Se vuoi autorizzazioni più granulari, rivedi le autorizzazioni a livello di accesso.

La località del bucket deve trovarsi nella stessa regione della VM (Compute Engine) e del nodo Cloud TPU.
Avvia una VM di Compute Engine e Cloud TPU utilizzando il comando gcloud. Il comando da utilizzare dipende dall'utilizzo di una VM TPU o di un nodo TPU. Per ulteriori informazioni sull'architettura delle due VM, consulta Architettura di sistema. Per maggiori informazioni sul comando gcloud, consulta la sezione Riferimento gcloud.
VM TPU
```
$ gcloud compute tpus tpu-vm create dlrm-dcn-tutorial \
--zone=europe-west4-a \
--accelerator-type=v3-8 \
--version=tpu-vm-tf-2.16.1-se
```
Descrizioni flag comando

zone

La zona in cui prevedi di creare la Cloud TPU.

accelerator-type

Il tipo di acceleratore specifica la versione e le dimensioni della Cloud TPU che vuoi creare. Per maggiori informazioni sui tipi di acceleratori supportati per ogni versione di TPU, consulta Versioni TPU.

version

La versione software di Cloud TPU.
Nodo TPU
```
$ gcloud compute tpus execution-groups create \
--name=dlrm-dcn-tutorial \
--zone=europe-west4-a \
--disk-size=300 \
--machine-type=n1-standard-8 \
--tf-version=2.12.0
```
Descrizioni flag comando

vm-only

Crea solo una VM. Per impostazione predefinita, il comando gcloud compute tpus execution-groups crea una VM e una Cloud TPU.

name

Il nome della Cloud TPU da creare.

zone

La zona in cui prevedi di creare la Cloud TPU.

disk-size

Le dimensioni del disco rigido in GB della VM creata dal comando gcloud compute tpus execution-groups.

machine-type

Il tipo di macchina della VM di Compute Engine da creare.

tf-version

La versione di TensorFlow ctpu si installa sulla VM.
Nota: la prima volta che esegui gcloud compute tpus execution-groups su un progetto, possono essere necessari diversi minuti per eseguire attività di avvio come la propagazione della chiave SSH e l'attivazione delle API.
Se non hai eseguito automaticamente l'accesso all'istanza di Compute Engine, accedi eseguendo il comando ssh riportato di seguito. Quando hai eseguito l'accesso alla VM, il prompt della shell cambia da username@projectname a username@vm-name:
VM TPU
```
gcloud compute tpus tpu-vm ssh dlrm-dcn-tutorial --zone=europe-west4-a
```
Nodo TPU
```
gcloud compute ssh dlrm-dcn-tutorial --zone=europe-west4-a
```
Mentre continui con queste istruzioni, esegui ogni comando che inizia con (vm)$ nella finestra della sessione VM.

Imposta le variabili dei bucket Cloud Storage

Configura le seguenti variabili di ambiente, sostituendo bucket-name con il nome del tuo bucket Cloud Storage:

(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export PYTHONPATH="/usr/share/tpu/models/:${PYTHONPATH}"
(vm)$ export EXPERIMENT_NAME=dlrm-exp

Imposta una variabile di ambiente per il nome della TPU.

VM TPU

(vm)$ export TPU_NAME=local

Nodo TPU

(vm)$ export TPU_NAME=dlrm-dcn-tutorial

L'applicazione di addestramento prevede che i tuoi dati di addestramento siano accessibili in Cloud Storage. L'applicazione di addestramento usa il tuo bucket Cloud Storage per archiviare i checkpoint durante l'addestramento.

Configura per eseguire il modello DLRM o DCN con dati sintetici

Il modello può essere addestrato su vari set di dati. Due di uso comune sono Criteo Terabyte e Criteo Kaggle. Questo tutorial addestra i dati sintetici impostando il flag use_synthetic_data=True.

Il set di dati sintetico è utile solo per comprendere come utilizzare una Cloud TPU e convalidare le prestazioni end-to-end. I valori relativi all'accuratezza e al modello salvato non saranno significativi.

Visita i siti web Criteo Terabyte e Criteo Kaggle per informazioni su come scaricare e preelaborare questi set di dati.

Installa i pacchetti richiesti.

(vm)$ pip3 install tensorflow-recommenders
(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

Passa alla directory dello script.

VM TPU

(vm)$ cd /usr/share/tpu/models/official/recommendation/ranking

Nodo TPU

(vm)$ cd /usr/share/models/official/recommendation/ranking

Esegui lo script di addestramento. Ciò utilizza un set di dati falso, simile a Criteo, per addestrare il modello DLRM. La formazione richiede circa 20 minuti.

export EMBEDDING_DIM=32

python3 train.py --mode=train_and_eval \
     --model_dir=${STORAGE_BUCKET}/model_dirs/${EXPERIMENT_NAME} --params_override="
     runtime:
         distribution_strategy: 'tpu'
     task:
         use_synthetic_data: true
         train_data:
             input_path: '${DATA_DIR}/train/*'
             global_batch_size: 16384
         validation_data:
             input_path: '${DATA_DIR}/eval/*'
             global_batch_size: 16384
         model:
             num_dense_features: 13
             bottom_mlp: [512,256,${EMBEDDING_DIM}]
             embedding_dim: ${EMBEDDING_DIM}
             top_mlp: [1024,1024,512,256,1]
             interaction: 'dot'
             vocab_sizes: [39884406, 39043, 17289, 7420, 20263, 3, 7120, 1543, 63,
                 38532951, 2953546, 403346, 10, 2208, 11938, 155, 4, 976, 14,
                 39979771, 25641295, 39664984, 585935, 12972, 108, 36]
     trainer:
         use_orbit: false
         validation_interval: 1000
         checkpoint_interval: 1000
         validation_steps: 500
         train_steps: 1000
         steps_per_loop: 1000
     "

Questo addestramento dura circa 10 minuti su una TPU v3-8. Al termine, vedrai messaggi simili ai seguenti:

I0621 21:32:58.519792 139675269142336 tpu_embedding_v2_utils.py:907] Done with log of TPUEmbeddingConfiguration.
I0621 21:32:58.540874 139675269142336 tpu_embedding_v2.py:389] Done initializing TPU Embedding engine.
1000/1000 [==============================] - 335s 335ms/step - auc: 0.7360 - accuracy: 0.6709 - prediction_mean: 0.4984
- label_mean: 0.4976 - loss: 0.0734 - regularization_loss: 0.0000e+00 - total_loss: 0.0734 - val_auc: 0.7403
- val_accuracy: 0.6745 - val_prediction_mean: 0.5065 - val_label_mean: 0.4976 - val_loss: 0.0749
- val_regularization_loss: 0.0000e+00 - val_total_loss: 0.0749

Model: "ranking"
_________________________________________________________________
Layer (type)                 Output Shape              Param #
=================================================================
tpu_embedding (TPUEmbedding) multiple                  1
_________________________________________________________________
mlp (MLP)                    multiple                  154944
_________________________________________________________________
mlp_1 (MLP)                  multiple                  2131969
_________________________________________________________________
dot_interaction (DotInteract multiple                  0
_________________________________________________________________
ranking_1 (Ranking)          multiple                  0
=================================================================
Total params: 2,286,914
Trainable params: 2,286,914
Non-trainable params: 0
_________________________________________________________________
I0621 21:43:54.977140 139675269142336 train.py:177] Train history: {'auc': [0.7359596490859985],
'accuracy': [0.67094486951828], 'prediction_mean': [0.4983849823474884], 'label_mean': [0.4975697994232178],
'loss': [0.07338511198759079], 'regularization_loss': [0], 'total_loss': [0.07338511198759079],
'val_auc': [0.7402724623680115], 'val_accuracy': [0.6744520664215088], 'val_prediction_mean': [0.5064718723297119],
'val_label_mean': [0.4975748658180237], 'val_loss': [0.07486172765493393],
'val_regularization_loss': [0], 'val_total_loss': [0.07486172765493393]}

Esegui la pulizia

Per evitare che al tuo Account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questo tutorial, elimina il progetto che contiene le risorse oppure mantieni il progetto ed elimina le singole risorse.

Disconnettiti dall'istanza di Compute Engine, se non lo hai già fatto:
```
(vm)$ exit
```
Il prompt dovrebbe ora essere username@projectname, a indicare che ti trovi in Cloud Shell.
Elimina le risorse Cloud TPU e Compute Engine. Il comando da utilizzare per eliminare le risorse dipende dall'utilizzo di VM TPU o nodi TPU. Per ulteriori informazioni, consulta Architettura di sistema.
VM TPU
```
$ gcloud compute tpus tpu-vm delete dlrm-dcn-tutorial \
--zone=europe-west4-a
```
Nodo TPU
```
$ gcloud compute tpus execution-groups delete dlrm-dcn-tutorial \
--zone=europe-west4-a
```
Verifica che le risorse siano state eliminate eseguendo gcloud compute tpus execution-groups list. L'eliminazione potrebbe richiedere diversi minuti. L'output del comando seguente non deve includere nessuna delle risorse create in questo tutorial:
VM TPU
```
$ gcloud compute tpus tpu-vm list --zone=europe-west4-a
```
Nodo TPU
```
$ gcloud compute tpus execution-groups list --zone=europe-west4-a
```
Elimina il bucket Cloud Storage utilizzando gsutil. Sostituisci bucket-name con il nome del tuo bucket Cloud Storage.
```
$ gsutil rm -r gs://bucket-name
```

Passaggi successivi

I tutorial su TensorFlow Cloud TPU in genere addestrano il modello utilizzando un set di dati di esempio. I risultati di questo addestramento non sono utilizzabili per l'inferenza. Per utilizzare un modello per l'inferenza, puoi addestrare i dati su un set di dati disponibile pubblicamente o sul tuo set di dati. I modelli TensorFlow addestrati sulle Cloud TPU in genere richiedono che i set di dati siano in formato TFRecord.

Puoi utilizzare l'esempio dello strumento di conversione del set di dati per convertire un set di dati di classificazione delle immagini nel formato TFRecord. Se non utilizzi un modello di classificazione delle immagini, dovrai convertire manualmente il set di dati nel formato TFRecord. Per ulteriori informazioni, consulta TFRecord e tf.Example.

Ottimizzazione degli iperparametri

Per migliorare le prestazioni del modello con il set di dati, puoi ottimizzare gli iperparametri del modello. Puoi trovare informazioni sugli iperparametri comuni a tutti i modelli supportati da TPU su GitHub. Puoi trovare informazioni sugli iperparametri specifici nel codice sorgente di ciascun modello. Per ulteriori informazioni sull'ottimizzazione degli iperparametri, consulta Panoramica dell'ottimizzazione degli iperparametri e degli iperparametri.

Inferenza

Una volta addestrato il modello, puoi utilizzarlo per l'inferenza (detta anche previsione). Puoi utilizzare lo strumento di conversione di inferenza Cloud TPU per preparare e ottimizzare un modello TensorFlow per l'inferenza su Cloud TPU v5e. Per ulteriori informazioni sull'inferenza su Cloud TPU v5e, consulta l'introduzione all'inferenza di Cloud TPU v5e.

Addestramento di DLRM e DCN su Cloud TPU (TF 2.x)

Obiettivi

Costi

Prima di iniziare

Configura le risorse

VM TPU

Descrizioni flag comando

Nodo TPU

Descrizioni flag comando

VM TPU

Nodo TPU

Imposta le variabili dei bucket Cloud Storage

VM TPU

Nodo TPU

Configura per eseguire il modello DLRM o DCN con dati sintetici

VM TPU

Nodo TPU

Esegui la pulizia

VM TPU

Nodo TPU

VM TPU

Nodo TPU

Passaggi successivi

Ottimizzazione degli iperparametri

Inferenza