Diese Seite wurde von der Cloud Translation API übersetzt.

Transformer auf Cloud TPU (TF 2.x) trainieren

Wenn Sie mit Cloud TPU nicht vertraut sind, sollten Sie unbedingt die Kurzanleitung dazu, wie Sie eine TPU-VM erstellen.

In dieser Anleitung erfahren Sie, wie Sie ein Transformer-Modell in Cloud TPU trainieren. Transformer ist eine neuronale Netzwerkarchitektur, die Sequenz-zu-Sequenz-Probleme mithilfe von Aufmerksamkeitsmechanismen löst. Im Gegensatz zu herkömmlichen neuronalen Sequenz-zu-Sequenz-Modellen umfasst Transformer keine wiederkehrenden Verbindungen. Der Aufmerksamkeitsmechanismus lernt Abhängigkeiten zwischen Tokens in zwei Sequenzen. Da Aufmerksamkeitsgewichtungen auf alle Tokens in den Sequenzen angewendet werden, kann das Transformer-Modell problemlos Abhängigkeiten über weite Strecken erfassen.

Die gesamte Struktur von Transformer folgt dem Encoder-Decoder-Standardmuster. Der Codierer verwendet "Self-Attention", um eine Darstellung der Eingabesequenz zu berechnen. Der Decoder generiert die Ausgabesequenz ein Token nach dem anderen, wobei die Encoder-Ausgabe und die vorherigen Decoder-Ausgabe-Tokens als Eingaben.

Das Modell wendet auch Einbettungen auf die Eingabe- und Ausgabetokens an und fügt eine konstante Positionscodierung hinzu. Die Positionscodierung fügt Informationen über die Position jedes Tokens hinzu.

Ziele

Cloud Storage-Bucket zum Speichern der Dataset- und Modellausgabe erstellen
Laden Sie das zum Trainieren des Modells verwendete Dataset herunter und vorverarbeiten Sie es.
Trainingsjob ausführen
Ausgabeergebnisse überprüfen

Kosten

In diesem Dokument verwenden Sie die folgenden kostenpflichtigen Komponenten von Google Cloud:

Compute Engine
Cloud TPU

Mit dem Preisrechner können Sie eine Kostenschätzung für Ihre voraussichtliche Nutzung vornehmen. Neuen Google Cloud-Nutzern steht möglicherweise eine kostenlose Testversion zur Verfügung.

Hinweise

Bevor Sie mit dieser Anleitung beginnen, prüfen Sie, ob Ihr Google Cloud-Projekt ordnungsgemäß eingerichtet ist.

Melden Sie sich bei Ihrem Google Cloud-Konto an. Wenn Sie mit Google Cloud noch nicht vertraut sind, erstellen Sie ein Konto, um die Leistungsfähigkeit unserer Produkte in der Praxis sehen und bewerten zu können. Neukunden erhalten außerdem ein Guthaben von 300 $, um Arbeitslasten auszuführen, zu testen und bereitzustellen.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Die Abrechnung für das Google Cloud-Projekt muss aktiviert sein.

In dieser Anleitung werden kostenpflichtige Komponenten der Google Cloud verwendet. Rufen Sie die Seite mit den Cloud TPU-Preisen auf, um Ihre Kosten abzuschätzen. Denken Sie daran, nicht mehr benötigte Ressourcen zu bereinigen, um unnötige Kosten zu vermeiden.

Mit einem einzelnen Cloud TPU-Gerät trainieren

Dieser Abschnitt enthält Informationen zum Einrichten eines Cloud Storage-Bucket und eine TPU-VM für das Training auf einem einzelnen Gerät.

Öffnen Sie ein Cloud Shell-Fenster.

Cloud Shell öffnen
Erstellen Sie eine Umgebungsvariable für Ihre Projekt-ID.
```
export PROJECT_ID=project-id
```
Konfigurieren Sie die Google Cloud CLI für die Verwendung des Google Cloud-Projekts, in dem Sie eine Cloud TPU erstellen möchten.
```
gcloud config set project ${PROJECT_ID}
```
Wenn Sie diesen Befehl zum ersten Mal in einer neuen Cloud Shell-VM ausführen, wird die Seite Authorize Cloud Shell angezeigt. Klicken Sie unten auf der Seite auf Authorize. , um gcloud zu erlauben, Google Cloud API-Aufrufe mit Ihren Anmeldedaten auszuführen.
Erstellen Sie ein Dienstkonto für das Cloud TPU-Projekt.

Dienstkonten ermöglichen dem Cloud TPU-Dienst den Zugriff auf andere Google Cloud-Dienste .
```
$ gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
```
Der Befehl gibt ein Cloud TPU-Dienstkonto im folgenden Format zurück:
```
service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
```
Erstellen Sie mit dem folgenden Befehl einen Cloud Storage-Bucket:
```
$ gsutil mb -p ${PROJECT_ID} -c standard -l us-central2 gs://bucket-name
```
Dieser Cloud Storage-Bucket speichert die Daten, die Sie zum Trainieren Ihres Modells verwenden, sowie die Trainingsergebnisse. Mit dem gcloud-Befehl, der in dieser Anleitung zum Einrichten der TPU verwendet wird, werden auch Standardberechtigungen für das Cloud TPU-Dienstkonto eingerichtet, das Sie im vorherigen Schritt eingerichtet haben. Wenn Sie genauere Berechtigungen benötigen, können Sie die Berechtigungen auf Zugriffsebene anpassen.

Transformer-Modell auf einer einzelnen Cloud TPU trainieren

Starten Sie eine Cloud TPU-VM mit dem Befehl gcloud.
```
  $ gcloud compute tpus tpu-vm create transformer-tutorial \
     --zone=us-central2-b \
     --accelerator-type=v4-8 \
     --version=tpu-vm-tf-2.17.0-pjrt
```
Beschreibung der Befehls-Flags

zone

Die Zone, in der Sie die Cloud TPU erstellen möchten.

accelerator-type

Der Beschleunigertyp gibt die Version und Größe der Cloud TPU an, die Sie erstellen möchten. Weitere Informationen zu unterstützten Beschleunigertypen für jede TPU-Version finden Sie unter TPU-Versionen.

version

Die Softwareversion von Cloud TPU.

Hinweis: Wenn Sie mehr als ein Google Cloud-Projekt haben, müssen Sie Das Flag --project, um die ID der Google Cloud in dem Sie die Cloud TPU erstellen möchten.
Hinweis: Wenn Sie gcloud compute tpus zum ersten Mal in einem Projekt ausführen dauert es ungefähr 5 Minuten, Startaufgaben auszuführen, z. B. SSH-Schlüsselweitergabe und API-Aktivierung
Stellen Sie eine Verbindung zur Cloud TPU-VM her, indem Sie folgenden ssh ausführen .

Hinweis: Wenn Sie mit der Cloud TPU-VM verbunden sind, wird Ihre Shell-Eingabeaufforderung angezeigt. ändert sich von username@projectname zu username@vm-name:
```
gcloud compute tpus tpu-vm ssh transformer-tutorial --zone=us-central2-b
```
Wichtiger Hinweis: Ab diesem Zeitpunkt bedeutet das Präfix (vm) $, dass Sie führen Sie den Befehl auf der Compute Engine-VM-Instanz aus.

Umgebungsvariablen exportieren.

  (vm)$ export STORAGE_BUCKET=gs://bucket-name
  (vm)$ export SENTENCEPIECE_MODEL=sentencepiece
  (vm)$ export SENTENCEPIECE_MODEL_PATH=${STORAGE_BUCKET}/${SENTENCEPIECE_MODEL}.model
  (vm)$ export TFDS_DIR=${STORAGE_BUCKET}/tfds
  (vm)$ export PARAM_SET=big
  (vm)$ export TPU_NAME=local
  (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer/model_${PARAM_SET}
  (vm)$  export PYTHONPATH="/usr/share/tpu/models:$PYTHONPATH"

Wenn Sie beim Erstellen der TPU den Parameter --version auf eine Version festlegen, die mit -pjrt, legen Sie die folgenden Umgebungsvariablen fest, um die PJRT-Laufzeit zu aktivieren:
```
  (vm)$ export NEXT_PLUGGABLE_DEVICE_USE_C_API=true
  (vm)$ export TF_PLUGGABLE_DEVICE_LIBRARY_PATH=/lib/libtpu.so
```

Installieren Sie TensorFlow-Anforderungen.

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

Dataset herunterladen und vorverarbeiten

  (vm)$ python3 -c "import tensorflow_datasets as tfds; tfds.load('wmt14_translate/de-en', split='train+validation', shuffle_files=True, download=True)"
  (vm)$ python3 /usr/share/tpu/models/official/nlp/data/train_sentencepiece.py --output_model_path=${SENTENCEPIECE_MODEL}

Dataset in den Cloud Storage-Bucket kopieren

  (vm)$ gsutil -m cp ${SENTENCEPIECE_MODEL}.model ${STORAGE_BUCKET}
  (vm)$ gsutil -m cp ${SENTENCEPIECE_MODEL}.vocab ${STORAGE_BUCKET}
  (vm)$ gsutil -m cp -r tensorflow_datasets/wmt14_translate ${TFDS_DIR}/wmt14_translate

Trainingsverzeichnis aufrufen
```
(vm)$ cd /usr/share/tpu/models/
```
Trainingsskript ausführen
```
(vm)$ python3 official/nlp/train.py \
  --tpu=${TPU_NAME} \
  --experiment=wmt_transformer/large \
  --mode=train_and_eval \
  --model_dir=${MODEL_DIR} \
  --params_override="runtime.distribution_strategy=tpu, task.train_data.tfds_data_dir=${TFDS_DIR}, task.validation_data.tfds_data_dir=${TFDS_DIR}, task.sentencepiece_model_path=${SENTENCEPIECE_MODEL_PATH}, trainer.train_steps=10000, trainer.validation_interval=10000"
```
Beschreibung der Befehls-Flags

tpu

Der Name der Cloud TPU. Dieser wird durch Angabe der Umgebungsvariable (TPU_NAME) festgelegt.

experiment

Das Modell, das trainiert werden soll.

mode

Modus, in dem das Skript ausgeführt wird.

model_dir

Der Cloud Storage-Bucket, in dem während des Trainings Prüfpunkte und Zusammenfassungen gespeichert werden. Du kannst einen vorhandenen Ordner zum Laden verwenden Prüfpunkte generiert, die auf einer TPU derselben Größe und TensorFlow-Version.

params_override

Legen Sie Modellparameter fest.

Standardmäßig erfolgt eine Bewertung des Modells nach 10.000 Schritten. Sie können Anzahl der Trainingsschritte erhöhen oder angeben, wie oft Bewertungen ausgeführt werden sollen indem Sie folgende Parameter festlegen:
- train.train_steps: Die Gesamtzahl der auszuführenden Trainingsschritte.
- trainer.validation_interval: Die Anzahl der Trainingsschritte, die zwischen den Bewertungen ausgeführt werden sollen.
Training und Bewertung dauern auf einem v4-8-Gerät etwa 20 Minuten Cloud TPU Wenn das Training und die Bewertung abgeschlossen sind, wird eine Meldung wie die folgende angezeigt:
```
I0208 20:57:19.309512 140039467895872 controller.py:310]  eval | step:  10000 | eval time:   69.2 sec | output: 
{'bleu_score': 19.204771518707275,
 'sacrebleu_score': 18.307039308307356,
 'validation_loss': 2.0654342}
 eval | step:  10000 | eval time:   69.2 sec | output: 
{'bleu_score': 19.204771518707275,
 'sacrebleu_score': 18.307039308307356,
 'validation_loss': 2.0654342}
```
Sie haben jetzt das Einzelgerät-Training abgeschlossen. Gehen Sie folgendermaßen vor, um die Ressourcen des TPU-Einzelgeräts zu löschen.
Trennen Sie die Verbindung zur Compute Engine-Instanz:
```
(vm)$ exit
```
Die Eingabeaufforderung sollte nun username@projectname lauten und angeben, dass Sie sich in Cloud Shell befinden.
Löschen Sie die TPU-Ressource.
```
  $ gcloud compute tpus tpu-vm delete transformer-tutorial \
    --zone=us-central2-b
  
```
Beschreibung der Befehls-Flags

zone

Die Zone wo sich Ihre Cloud TPU befand.

An dieser Stelle können Sie entweder diese Anleitung beenden und eine Bereinigung durchführen oder die Ausführung des Modells auf Cloud TPU Pods fortsetzen.

Modell mit Cloud TPU Pods skalieren

Das Training Ihres Modells auf Cloud TPU-Pods kann einige Änderungen Ihr Trainingsskript. Weitere Informationen finden Sie unter Auf TPU-Pods trainieren.

TPU-Pod-Training

Öffnen Sie ein Cloud Shell-Fenster.

Cloud Shell öffnen
Erstellen Sie eine Variable für Ihre Projekt-ID.
```
export PROJECT_ID=project-id
```
Konfigurieren Sie die Google Cloud CLI für die Verwendung des Projekts, in dem Sie ein Cloud TPU
```
gcloud config set project ${PROJECT_ID}
```
Wenn Sie diesen Befehl zum ersten Mal in einer neuen Cloud Shell-VM ausführen, wird die Seite Authorize Cloud Shell angezeigt. Klicken Sie unten auf der Seite auf Authorize. um gcloud zu erlauben, API-Aufrufe mit Ihren Anmeldedaten auszuführen.

Erstellen Sie ein Dienstkonto für das Cloud TPU-Projekt.

gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID

Der Befehl gibt ein Cloud TPU-Dienstkonto im folgenden Format zurück:

service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com

Erstellen Sie mit dem folgenden Befehl einen Cloud Storage-Bucket oder verwenden Sie einen Bucket, den Sie zuvor für Ihr Projekt erstellt haben:
```
gsutil mb -p ${PROJECT_ID} -c standard -l us-central1 gs://bucket-name
```
Dieser Cloud Storage-Bucket speichert die Daten, die Sie zum Trainieren Ihres Modells verwenden, und die Trainingsergebnisse. Mit dem in dieser Anleitung verwendeten gcloud-Befehl werden Standardberechtigungen für das Cloud TPU-Dienstkonto eingerichtet, das Sie im vorherigen Schritt eingerichtet haben. Wenn Sie genauere Berechtigungen benötigen, können Sie die Berechtigungen auf Zugriffsebene anpassen.

Wichtig: Wenn Sie einen neuen Cloud Storage-Bucket erstellt haben, müssen Sie das Dataset herunterladen und vorverarbeiten. Weitere Informationen finden Sie unter Dataset vorbereiten.

TPU-VM-Ressourcen starten

Starten Sie einen TPU-VM-Pod mit dem gcloud-Befehl. Dieses wird ein v4-32-Pod angegeben. Weitere Pod-Optionen finden Sie unter TPU-Typen. Seite mit verfügbaren TPU-Typen.
<ph type="x-smartling-placeholder">
</ph> Hinweis: Wenn derzeit nicht genügend Kapazität zum Erstellen des TPU-Pod verfügbar ist, können Sie Anfrage mithilfe von Ressourcen in der Warteschlange in die Warteschlange stellen. Mit Ressourcen in der Warteschlange können Sie Kapazität empfangen, sobald diese verfügbar wird. Verwenden Sie die Methode gcloud alpha compute tpus queued-resources create. Weitere Informationen finden Sie unter Ressourcen in der Warteschlange verwalten
```
$ gcloud compute tpus tpu-vm create transformer-tutorial \
  --zone=us-central2-b \
  --accelerator-type=v3-32 \
  --version=tpu-vm-tf-2.17.0-pod-pjrt
```
Beschreibung der Befehls-Flags

zone

Die Zone, in der Sie die Cloud TPU erstellen möchten.

accelerator-type

Der Beschleunigertyp gibt die Version und Größe der Cloud TPU an, die Sie erstellen möchten. Weitere Informationen zu unterstützten Beschleunigertypen für jede TPU-Version finden Sie unter TPU-Versionen.

version

Die Softwareversion von Cloud TPU.
Stellen Sie mit dem folgenden ssh-Befehl eine Verbindung zur TPU-VM her. Wenn Sie bei der VM angemeldet sind, ändert sich die Shell-Eingabeaufforderung von username@projectname in username@vm-name:
```
gcloud compute tpus tpu-vm ssh transformer-tutorial --zone=us-central2-b
```

Installieren Sie TensorFlow-Anforderungen.

(vm)$ pip3 install -r /usr/share/tpu/models/official/requirements.txt

Pod-Training einrichten und starten

Exportieren Sie Cloud TPU-Einrichtungsvariablen:

(vm)$ export PYTHONPATH="/usr/share/tpu/models:$PYTHONPATH"
(vm)$ export STORAGE_BUCKET=gs://bucket-name
(vm)$ export SENTENCEPIECE_MODEL=sentencepiece
(vm)$ export SENTENCEPIECE_MODEL_PATH=${STORAGE_BUCKET}/${SENTENCEPIECE_MODEL}.model
(vm)$ export TFDS_DIR=${STORAGE_BUCKET}/tfds
(vm)$ export TPU_NAME=transformer-tutorial
(vm)$ export PARAM_SET=big
(vm)$ export MODEL_DIR=${STORAGE_BUCKET}/transformer/model_${PARAM_SET} 
(vm)$ export TPU_LOAD_LIBRARY=0

Dataset herunterladen

(vm)$ python3 -c "import tensorflow_datasets as tfds; tfds.load('wmt14_translate/de-en', split='train+validation', shuffle_files=True, download=True)"
(vm)$ python3 /usr/share/tpu/models/official/nlp/data/train_sentencepiece.py --output_model_path=${SENTENCEPIECE_MODEL}

Copy the dataset to Cloud Storage bucket

(vm)$ gsutil -m cp ${SENTENCEPIECE_MODEL}.model ${STORAGE_BUCKET}
(vm)$ gsutil -m cp ${SENTENCEPIECE_MODEL}.vocab ${STORAGE_BUCKET}
(vm)$ gsutil -m cp -r tensorflow_datasets/wmt14_translate ${TFDS_DIR}/wmt14_translate

Wechseln Sie in das Trainingsverzeichnis:
```
(vm)$ cd /usr/share/tpu/models/
```

Führen Sie das Trainingsskript aus:

(vm)$ python3 official/nlp/train.py 

  --tpu=${TPU_NAME} 

  --experiment=wmt_transformer/large 

  --mode=train_and_eval 

  --model_dir=${MODEL_DIR} 

  --params_override="runtime.distribution_strategy=tpu, task.train_data.tfds_data_dir=${TFDS_DIR}, task.validation_data.tfds_data_dir=${TFDS_DIR}, task.sentencepiece_model_path=${SENTENCEPIECE_MODEL_PATH}, trainer.train_steps=10000, trainer.validation_interval=10000"


  
  Command flag descriptions
  
  tpu
  The name of the Cloud TPU. This is set by specifying
      the environment variable (TPU_NAME).
  experiment
  The model to train.
  mode
  The mode in which to run the script.
  model_dir
  The Cloud Storage bucket where checkpoints and summaries are
      stored during training. You can use an existing folder to load previously
      generated checkpoints created on a TPU of the same size and
      TensorFlow version.
  params_override
  Set model parameters.

By default, the model will evaluate after every 10000 steps. In order to train to convergence, change train_steps to 200000. You can increase the number of training steps or specify how often to run evaluations by setting these parameters:

trainer.train_steps: Sets the total number of training steps to run.
trainer.validation_interval: Sets the number of training steps to run between evaluations.

Training and evaluation takes approximately 14 minutes on a v4-32 Cloud TPU. When the training and evaluation complete, messages similar to the following appear:

I0209 22:19:49.143219 139751309618240 controller.py:310]  eval | step:  10000 | eval time:   73.6 sec | output: 
    {'bleu_score': 19.401752948760986,
     'sacrebleu_score': 18.442741330886378,
     'validation_loss': 2.0558002}
 eval | step:  10000 | eval time:   73.6 sec | output: 
    {'bleu_score': 19.401752948760986,
     'sacrebleu_score': 18.442741330886378,
     'validation_loss': 2.0558002}

Dieses Trainingsskript wird für 20.000 Schritte trainiert und die Bewertung wird alle 2.000 Schritte ausgeführt. Dieses spezielle Training und diese Bewertung dauern auf einem v3-32-Cloud TPU-Pod etwa acht Minuten. Wenn das Training und die Bewertung abgeschlossen sind, wird eine Meldung wie die folgende angezeigt:

INFO:tensorflow:Writing to file /tmp/tmpdmlanxcf
I0218 21:09:19.100718 140509661046592 translate.py:184] Writing to file /tmp/tmpdmlanxcf
I0218 21:09:28.043537 140509661046592 transformer_main.py:118] Bleu score (uncased): 1.799112930893898
I0218 21:09:28.043911 140509661046592 transformer_main.py:119] Bleu score (cased): 1.730366237461567

Zum Trainieren einer Konvergenz müssen Sie train_steps auf 200.000 ändern. Sie können die Anzahl der Trainingsschritte erhöhen oder angeben, wie oft Bewertungen ausgeführt werden sollen, indem Sie die folgenden Parameter festlegen:

--train_steps: Legt die Gesamtzahl der auszuführenden Trainingsschritte fest.
--steps_between_evals: Anzahl der Trainingsschritte, die zwischen den Bewertungen ausgeführt werden sollen.

Wenn das Training und die Bewertung abgeschlossen sind, wird eine Meldung wie die folgende angezeigt:

0509 00:27:59.984464 140553148962624 translate.py:184] Writing to file /tmp/tmp_rk3m8jp
I0509 00:28:11.189308 140553148962624 transformer_main.py:119] Bleu score (uncased): 1.3239131309092045
I0509 00:28:11.189623 140553148962624 transformer_main.py:120] Bleu score (cased): 1.2855342589318752

Bereinigen

Damit Ihrem Google Cloud-Konto die in dieser Anleitung verwendeten Ressourcen nicht in Rechnung gestellt werden, löschen Sie entweder das Projekt, das die Ressourcen enthält, oder Sie behalten das Projekt und löschen die einzelnen Ressourcen.

Trennen Sie die Verbindung zur Compute Engine-Instanz, sofern noch nicht geschehen:
```
(vm)$ exit
```
Die Eingabeaufforderung sollte nun username@projectname lauten und angeben, dass Sie sich in Cloud Shell befinden.

Löschen Sie Ihre Cloud TPU- und Compute Engine-Ressourcen.

$ gcloud compute tpus tpu-vm delete transformer-tutorial \
  --zone=us-central2-b

Führen Sie gsutil wie angegeben aus und ersetzen Sie dabei bucket-name durch den Namen des Cloud Storage-Buckets, den Sie für diese Anleitung erstellt haben:

Achtung: Alle Trainingsdaten gehen beim Löschen des Buckets verloren. Führen Sie diesen Schritt erst aus, wenn Sie die Anleitung abgeschlossen haben.
```
$ gsutil rm -r gs://bucket-name
```

Nächste Schritte

In den Cloud TPU-Anleitungen von TensorFlow wird das Modell in der Regel mithilfe eines Beispiel-Datasets trainiert. Die Ergebnisse dieses Trainings können nicht für die Inferenz verwendet werden. Bis ein Modell für die Inferenz nutzen, können Sie die Daten anhand eines öffentlich verfügbaren oder Ihrem eigenen Dataset. Auf Cloud TPUs trainierte TensorFlow-Modelle müssen Datasets im Allgemeinen TFRecord-Format.

Mit dem Tool zur Konvertierung von Datasets Sample zum Konvertieren eines Bildes Klassifizierungs-Dataset in das TFRecord-Format. Wenn Sie kein Bild verwenden Klassifizierungsmodells spezifizieren, müssen Sie das Dataset TFRecord-Format selbst. Weitere Informationen finden Sie unter TFRecord und tf.Beispiel

Hyperparameter-Feinabstimmung

Um die Leistung des Modells mit Ihrem Dataset zu verbessern, können Sie die Hyperparameter. Sie finden Informationen zu allgemeinen Hyperparametern Von TPU unterstützte Modelle auf GitHub Informationen zu modellspezifischen Hyperparametern finden Sie in der Quelle Code für die einzelnen model. Weitere Informationen zur Abstimmung von Hyperparametern finden Sie unter Übersicht über Hyperparameter-Abstimmung und Feinabstimmung Hyperparametern.

Inferenz

Sobald Sie Ihr Modell trainiert haben, können Sie es für die Inferenz (auch als Vorhersage). Sie können den Cloud TPU-Inferenzkonverter verwenden ein Tool zum Erstellen und Optimieren TensorFlow-Modell für Inferenz auf Cloud TPU v5e Weitere Informationen Informationen zur Inferenz in Cloud TPU v5e finden Sie unter Cloud TPU v5e-Inferenz .

Transformer auf Cloud TPU (TF 2.x) trainieren

Ziele

Kosten

Hinweise

Mit einem einzelnen Cloud TPU-Gerät trainieren

Transformer-Modell auf einer einzelnen Cloud TPU trainieren

Beschreibung der Befehls-Flags

Beschreibung der Befehls-Flags

Beschreibung der Befehls-Flags

Modell mit Cloud TPU Pods skalieren

TPU-Pod-Training

TPU-VM-Ressourcen starten

Beschreibung der Befehls-Flags

Pod-Training einrichten und starten

Command flag descriptions

Bereinigen

Nächste Schritte

Hyperparameter-Feinabstimmung

Inferenz