Profil für Modell auf Cloud TPU-Knoten erstellen

Durch Erstellen von Modellprofilen können Sie die Trainingsleistung auf Cloud TPUs optimieren. Verwenden Sie TensorBoard und das Cloud TPU TensorBoard-Plug-in, um ein Profil für Ihr Modell zu erstellen. Eine Installationsanleitung finden Sie unter TensorBoard-Installationsanleitung.

Weitere Informationen zur Verwendung von TensorBoard mit einem der unterstützten Frameworks finden Sie in den folgenden Dokumenten:

Vorbereitung

TensorBoard wird als Teil von TensorFlow installiert. TensorFlow wird standardmäßig in Cloud TPU-Knoten installiert. Sie können TensorFlow auch manuell installieren. In beiden Fällen können zusätzliche Abhängigkeiten erforderlich sein. Installieren Sie diese mit dem folgenden Befehl:

(vm)$ pip3 install --user -r /usr/share/models/official/requirements.txt

Cloud TPU TensorBoard-Plug-in installieren

Stellen Sie eine SSH-Verbindung zum TPU-Knoten her:

$ gcloud compute ssh your-vm --zone=your-zone

Führen Sie folgende Befehle aus:

  pip3 install --upgrade "cloud-tpu-profiler>=2.3.0"
  pip3 install --user --upgrade -U "tensorboard>=2.3"
  pip3 install --user --upgrade -U "tensorflow>=2.3"

Profil erfassen

Sie können ein Profil über die TensorBoard-UI oder programmatisch erstellen.

Mit TensorBoard ein Profil erfassen

Wenn Sie TensorBoard starten, wird ein Webserver gestartet. Wenn Sie im Browser die TensorBoard-URL aufrufen, wird eine Webseite angezeigt. Auf der Webseite können Sie manuell ein Profil erfassen und die Profildaten aufrufen.

TensorFlow Profiler-Server starten

tf.profiler.experimental.server.start(6000)

Dadurch wird der TensorFlow-Profiler-Server auf der TPU-VM gestartet.

Trainingsskript starten

Führen Sie das Trainingsskript aus und warten Sie, bis die Ausgabe anzeigt, dass Ihr Modell aktiv trainiert wird. Wie dies aussieht, hängt von Ihrem Code und Modell ab. Suchen Sie nach einer Ausgabe wie Epoch 1/100. Alternativ können Sie die Cloud TPU-Seite in der Google Cloud Console aufrufen, Ihre TPU auswählen und sich das CPU-Auslastungsdiagramm ansehen. Dies zeigt zwar keine TPU-Auslastung an, ist aber ein guter Hinweis darauf, dass die TPU Ihr Modell trainiert.

TensorBoard-Server starten

Öffnen Sie ein neues Terminalfenster und stellen Sie eine SSH-Verbindung zu Ihrer TPU-VM mit Portweiterleitung her. Dadurch kann der lokale Browser mit dem TensorBoard-Server kommunizieren, der auf der TPU-VM ausgeführt wird.

 gcloud compute tpus execution-groups ssh your-vm --zone=us-central1-a --ssh-flag="-4 -L 9001:localhost:9001"

Führen Sie TensorBoard im soeben geöffneten Terminalfenster aus und geben Sie das Verzeichnis an, in das TensorBoard Daten zur Profilerstellung mit dem Flag --logdir schreiben kann. Beispiel:

TPU_LOAD_LIBRARY=0 tensorboard --logdir your-model-dir --port 9001

TensorBoard startet einen Webserver und zeigt seine URL an:

Serving TensorBoard on localhost; to expose to the network, use a proxy or pass --bind_all
TensorBoard 2.3.0 at http://localhost:9001/ (Press CTRL+C to quit)

Öffnen Sie einen Webbrowser und rufen Sie die in der TensorBoard-Ausgabe angezeigte URL auf. Achten Sie darauf, dass TensorBoard die Profildaten vollständig geladen hat. Klicken Sie dazu auf der TensorBoard-Seite rechts oben auf die Schaltfläche zur Aktualisierung. Standardmäßig ist auf der TensorBoard-Seite der Tab "Scalars" ausgewählt.

Profil auf TPU-Knoten erfassen

Wählen Sie im Drop-down-Menü oben auf dem Bildschirm PROFIL aus.
Wählen Sie die Schaltfläche PROFIL ERFASSEN aus.
Wählen Sie das Optionsfeld TPU Name (TPU-Name) aus.
TPU-Namen eingeben
Wähle die Schaltfläche AUFNAHMEN aus.

Profil programmatisch erfassen

Wie Sie ein Profil programmatisch erfassen, hängt vom verwendeten ML-Framework ab.

Wenn Sie TensorFlow verwenden, starten und beenden Sie den Profiler mit tf.profiler.experimental.start() bzw. tf.profiler.experimental.stop(). Weitere Informationen finden Sie in der TensorFlow-Leistungsanleitung.

Wenn Sie JAX verwenden, verwenden Sie jax.profiler.start_trace() und jax.profiler.stop_trace(), um den Profiler entsprechend zu starten bzw. zu stoppen. Weitere Informationen finden Sie unter Profilerstellung für JAX-Programme.

Häufige Probleme bei der Profilerfassung

Wenn Sie versuchen, einen Trace zu erfassen, werden manchmal Meldungen wie die folgende angezeigt:

No trace event is collected after xx attempt(s). Perhaps, you want to try again
(with more attempts?).Tip: increase number of attempts with --num_tracing_attempts.

Failed to capture profile: empty trace result

Dies kann auftreten, wenn die TPU nicht aktiv Berechnungen durchführt, ein Trainingsschritt zu lange dauert oder andere Gründe vorliegen. Wenn diese Meldung angezeigt wird, versuchen Sie Folgendes:

Versuchen Sie, nach einigen Epochen ein Profil zu erstellen.
Erhöhen Sie die Dauer der Profilerstellung im Dialogfeld Capture Profile (Profil erfassen) von TensorBoard. Möglicherweise dauert ein Trainingsschritt zu lange.
Achten Sie darauf, dass VM und TPU dieselbe TF-Version haben.

Profildaten mit TensorBoard ansehen

Der Tab Profil wird angezeigt, nachdem Sie einige Modelldaten erfasst haben. Möglicherweise müssen Sie oben rechts auf der TensorBoard-Seite auf die Schaltfläche zum Aktualisieren klicken. Sobald die Daten verfügbar sind, wird durch Klicken auf den Tab Profil eine Auswahl von Tools zur Unterstützung der Leistungsanalyse angezeigt:

Übersichtsseite
Trace Viewer (nur Chrome-Browser)
Streaming Trace Viewer (nur Chrome-Browser)

Trace Viewer

Trace Viewer ist ein Cloud TPU-Tool zur Leistungsanalyse, das unter Profile (Profil) verfügbar ist. Das Tool verwendet den Chrome Trace Event Profiling Viewer, weshalb es nur im Chrome-Browser funktioniert.

Trace Viewer enthält eine Zeitachse mit folgenden Informationen:

Dauer für die Vorgänge, die von Ihrem TensorFlow-Modell ausgeführt wurden.
Teil des Systems (TPU oder Hostcomputer), in dem ein Vorgang ausgeführt wurde. Normalerweise führt der Hostcomputer Einspeisevorgänge zur Vorverarbeitung der Trainingsdaten und deren Übertragung an die TPU aus, während die TPU das eigentliche Modelltraining übernimmt.

Trace Viewer ermöglicht es Ihnen, Leistungsprobleme in Ihrem Modell zu identifizieren und Maßnahmen zu deren Lösung zu ergreifen. Beispielsweise können Sie der Übersicht entnehmen, ob die Einspeisung oder das Modelltraining die meiste Zeit beansprucht. Eine Aufschlüsselung lässt dann erkennen, welche TensorFlow-Vorgänge die längste Ausführungszeit haben.

Der Trace Viewer ist auf eine Million Ereignisse pro Cloud TPU beschränkt. Wenn Sie weitere Ereignisse bewerten müssen, verwenden Sie stattdessen den Streaming Trace Viewer.

Trace Viewer-Oberfläche

Gehen Sie zum Öffnen von Trace Viewer zu TensorBoard, klicken Sie oben auf dem Bildschirm auf den Tab Profil und wählen Sie trace_viewer aus der Drop-down-Liste Tools aus. Der Viewer zeigt Ihren letzten Durchlauf an:

Dieser Bildschirm enthält hauptsächlich folgende Elemente (oben mit Nummern gekennzeichnet):

Drop-down "Runs" (Durchläufe): Enthält alle Durchläufe, für die Trace-Informationen erfasst wurden. Die Standardansicht ist Ihr letzter Durchlauf. Sie können die Drop-down-Liste jedoch öffnen, um einen anderen Durchlauf auszuwählen.
Drop-down "Tools": Wählt verschiedene Tools zur Profilerstellung aus.
Drop-down "Host": Wählt einen Host aus, der einen Cloud TPU-Satz enthält.
Bereich "Timeline" (Zeitachse): Zeigt Vorgänge an, die Cloud TPU und der Hostcomputer im Laufe der Zeit ausgeführt haben.
Bereich "Details": Zeigt zusätzliche Informationen zu Vorgängen an, die im Zeitachsenbereich ausgewählt wurden.

Eine genauere Ansicht des Zeitachsenbereichs:

Der Zeitachsenbereich setzt sich aus folgenden Elementen zusammen:

Leiste am oberen Rand: Enthält verschiedene zusätzliche Steuerelemente.
Zeitachse: Zeigt die Zeit in Relation zum Trace-Anfang an.
Abschnitts- und Tracklabels: Jeder Abschnitt enthält mehrere Tracks und ein Dreieck auf der linken Seite, auf das Sie klicken können, um den Abschnitt zu maximieren bzw. zu minimieren. Jedes Verarbeitungselement im System ist durch einen Abschnitt vertreten.
Toolauswahl: Enthält verschiedene Tools für die Interaktion mit dem Trace Viewer.
Ereignisse: Zeigen die Ausführungszeiten von Vorgängen oder die Dauer von Metaereignissen wie Trainingsschritten an.
Vertikale Tableiste: Dies ist für Cloud TPU nicht sinnvoll. Die Leiste ist Teil des von Chrome bereitgestellten universellen Trace Viewer-Tools, das für eine Vielzahl von Leistungsanalyseaufgaben verwendet wird.

Abschnitte und Tracks

Trace Viewer enthält folgende Abschnitte:

Ein Abschnitt für jeden TPU-Knoten, der mit der Nummer des TPU-Chips und des TPU-Knotens innerhalb des Chips beschriftet ist (zum Beispiel "Chip 2: TPU Core 1"). Jeder TPU-Knotenabschnitt enthält folgende Tracks:
- Schritt. Zeigt die Dauer der Trainingsschritte an, die auf der TPU ausgeführt wurden.
- TensorFlow Ops (TensorFlow-Vorgänge): Zeigt die auf der TPU ausgeführten TensorFlow-Vorgänge an.
- XLA Ops (XLA-Vorgänge): Zeigt XLA-Vorgänge an, die auf der TPU ausgeführt wurden. Jeder Vorgang wird in einen oder mehrere XLA-Vorgänge übersetzt. Der XLA-Compiler übersetzt die XLA-Vorgänge in Code, der auf der TPU ausgeführt wird.
Ein Abschnitt für Threads, die auf der CPU des Hostcomputers ausgeführt werden, mit der Bezeichnung "Host Threads": Dieser Abschnitt enthält einen Track für jeden CPU-Thread. Hinweis: Sie können die neben den Abschnittslabels angezeigten Informationen ignorieren.

Toolauswahl für die Zeitachse

Sie können über die Toolauswahl für die Zeitachse in TensorBoard mit der Zeitachsenansicht interagieren. Sie können auf ein Zeitachsentool klicken oder die folgenden Tastaturkürzel verwenden, um ein Tool zu aktivieren und hervorzuheben. Sie können die Toolauswahl für die Zeitachse verschieben, wenn Sie oben in den gepunkteten Bereich klicken und die Auswahl an die gewünschte Stelle ziehen.

So verwenden Sie die Zeitachsentools:

	Auswahltool Klicken Sie auf ein Ereignis, um es auszuwählen, oder klicken und ziehen Sie, um mehrere Ereignisse auszuwählen. Im Detailbereich werden daraufhin zusätzliche Informationen (Name, Startzeit und Dauer) zu den ausgewählten Ereignissen angezeigt.
	Verschieben-Tool Klicken und ziehen Sie, um die Zeitachsenansicht horizontal und vertikal zu verschieben.
	Zoom-Tool Klicken und ziehen Sie nach oben, um die horizontale Zeitachse heranzuzoomen, oder klicken und ziehen Sie nach unten, um herauszuzoomen. Die horizontale Position des Mauszeigers bestimmt den Mittelpunkt, um den herum gezoomt wird. Hinweis: Im Zoom-Tool tritt ein bekannter Fehler auf: Wenn sich der Mauszeiger beim Loslassen der Maustaste außerhalb der Zeitachsenansicht befindet, bleibt der Zoom aktiv. Falls Ihnen das passiert, klicken Sie einfach kurz auf die Zeitachsenansicht, um das Zoomen zu stoppen.
	Zeitintervall-Tool Klicken und ziehen Sie horizontal, um ein Zeitintervall zu markieren. Die Länge des Intervalls wird auf der Zeitachse angezeigt. Wenn Sie das Intervall anpassen möchten, ziehen Sie seine Enden. Zum Löschen des Intervalls klicken Sie auf eine beliebige Stelle in der Zeitachsenansicht. Das Intervall bleibt markiert, wenn Sie eines der anderen Tools auswählen.

Grafiken

TensorBoard bietet eine Reihe von Visualisierungen oder Diagrammen Ihres Modells und seiner Leistung. Verwenden Sie die Diagramme zusammen mit dem Trace Viewer oder dem Streaming Trace Viewer, um Modelle zu optimieren und die Leistung in Cloud TPU zu verbessern.

Modellgrafik

Das Modellierungs-Framework kann aus Ihrem Modell ein Diagramm generieren. Die Daten für die Grafik werden im Verzeichnis MODEL_DIR in dem Storage-Bucket gespeichert, den Sie mit dem Parameter --logdir angeben. Sie können sich dieses Diagramm ansehen, ohne capture_tpu_profile auszuführen.

Wählen Sie in TensorBoard den Tab Grafiken aus, um die Grafik eines Modells anzusehen.

Ein einzelner Knoten im Strukturdiagramm stellt einen einzelnen Vorgang dar.

TPU-Kompatibilitätsdiagramm

Der Tab Graphs (Diagramme) enthält ein Modul zur Kompatibilitätsprüfung, das Vorgänge sucht und anzeigt, die beim Ausführen eines Modells möglicherweise Probleme verursachen können.

Wählen Sie den Tab Graphs (Diagramme) in TensorBoard und dann die Option TPU Compatibility (TPU-Kompatibilität), um ein Modell des TPU-Kompatibilitätsdiagramms anzuzeigen. Das Diagramm zeigt die kompatiblen (gültigen) Vorgänge in grün und die inkompatiblen (ungültigen) Vorgänge in rot an.

Ein bestimmter Knoten kann beide Farben anzeigen, jeweils als Prozentsatz der Cloud TPU-Kompatibilitätsvorgänge für diesen Knoten. Ein Beispiel finden Sie unter Kompatibilitätsergebnisse interpretieren.

Das Feld für die Kompatibilitätszusammenfassung rechts neben dem Diagramm zeigt den Prozentsatz aller Cloud TPU-kompatiblen Vorgängen, ihre Attribute und eine Liste nicht kompatibler Vorgänge für einen ausgewählten Knoten.

Wenn Sie auf einen Vorgang im Diagramm klicken, werden die zugehörigen Attribute im Zusammenfassungsfenster angezeigt.

Beachten Sie, dass die Kompatibilitätsprüfung keine Vorgänge bewertet, die mithilfe der manuellen Geräteplatzierung explizit einem Nicht-TPU-Gerät zugewiesen sind. Darüber hinaus kompiliert die Überprüfung das Modell nicht für die Ausführung, daher sind die Ergebnisse nur eine Schätzung der Kompatibilität.

Kompatibilitätsergebnisse interpretieren

Profil

Übersichtsseite
Input Pipeline Analyzer
XLA Op-Profil
Trace Viewer (nur Chrome-Browser)
Memory Viewer
Pod Viewer
Streaming Trace Viewer (nur Chrome-Browser)

Profilübersicht

Die unter Profile (Profil) verfügbare Übersichtsseite (overview_page) bietet eine Zusammenfassung über die Leistung Ihres Modells während einer Erfassungsausführung. Die Seite bietet eine aggregierte Übersicht aller TPUs sowie eine allgemeine Analyse der Eingabepipeline. In der Drop-down-Liste "Host" können Sie einzelne TPUs auswählen.

Auf der Seite werden Daten in den folgenden Bereichen angezeigt:

Performance Summary (Leistungsübersicht)
- Durchschnittliche Schrittzeit – Die Schrittzeit im Durchschnitt über alle Stichproben hinweg
- Inaktivitätszeit des Hosts – Anteil der Zeit, die der Host inaktiv war
- TPU-Inaktivitätszeit – Anteil der Zeit, die die TPU inaktiv war
- FLOPS-Auslastung – Die anteilige Auslastung der TPU-Matrixeinheiten
- Auslastung der Speicherbandbreite – Der Prozentsatz der verwendeten Speicherbandbreite
Step-time graph (Schrittzeitdiagramm). Zeigt ein Diagramm der Geräteschrittzeit in Millisekunden über alle Stichproben hinweg an. Der blaue Bereich entspricht dem Teil der Schrittzeit, in der die TPUs inaktiv waren und auf Eingabedaten vom Host gewartet haben. Der rote Bereich zeigt an, wie lange die Cloud TPU tatsächlich aktiv war.
Top 10 TensorFlow operations on TPU (Top 10 der TensorFlow-Vorgänge auf der TPU). Zeigt die TensorFlow-Vorgänge an, die am meisten Zeit in Anspruch genommen haben:

Jede Zeile zeigt die Eigenzeit eines Vorgangs (als Prozentsatz der Zeit, die alle Vorgänge beansprucht haben), die kumulative Dauer, die Kategorie, den Namen und die erreichte FLOPS-Rate an.
Run environment (Umgebung ausführen)
- Anzahl der verwendeten Hosts
- Typ der verwendeten TPU
- Anzahl der TPU-Kerne
- Trainingsbatchgröße
Recommendation for next steps (Empfehlung für die nächsten Schritte). Gibt an, wann ein Modell eingabegebunden ist und wann Probleme mit Cloud TPU auftreten. Schlägt Tools vor, mit denen Leistungsengpässe lokalisiert werden können.

Input Pipeline Analyzer

Der Input Pipeline Analyzer bietet Einblicke in Ihre Leistungsergebnisse. Das Tool zeigt Leistungsergebnisse aus der Datei input_pipeline.json an, die vom Tool capture_tpu_profile erfasst wurden.

Das Tool teilt Ihnen sofort mit, ob Ihr Programm eingabegebunden ist, und führt Sie durch geräteseitige und hostseitige Analysen, um Engpässe in allen Phasen der Pipeline zu beheben.

Weitere Informationen zur Optimierung der Pipeline-Leistung finden Sie in den Anleitungen zur Eingabepipeline-Leistung.

Eingabepipeline

Wenn ein TensorFlow-Programm Daten aus einer Datei liest, beginnt es in einer Pipeline am oberen Rand des TensorFlow-Diagramms. Der Lesevorgang ist in mehrere in Reihe geschaltete Datenverarbeitungsphasen unterteilt, wobei die Ausgabe einer Phase die Eingabe der nächsten Phase ergibt. Dieses Lesesystem wird als Eingabepipeline bezeichnet.

Eine typische Pipeline zum Lesen von Datensätzen aus Dateien gliedert sich in folgende Phasen:

Datei lesen
Datei vorverarbeiten (optional)
Dateiübertragung vom Hostcomputer zum Gerät

Eine ineffiziente Eingabe-Pipeline kann Ihre Anwendung stark verlangsamen. Eine Anwendung, die einen erheblichen Teil der Zeit in der Eingabe-Pipeline verbringt, wird als eingabegebunden bezeichnet. Verwenden Sie den Input Pipeline Analyzer, um herauszufinden, wo die Eingabe-Pipeline ineffizient ist.

Eingabepipeline-Dashboard

Sie wählen Profile (Profil) aus und wählen dann im Drop-down-Menü Tools input_pipeline_analyzer aus, um den Input Pipeline Analyzer zu öffnen.

Das Dashboard enthält drei Abschnitte:

Bild

Summary (Zusammenfassung). Fasst die gesamte Eingabepipeline mit Informationen darüber zusammen, ob und in welcher Höhe Ihre Anwendung eingabegebunden ist.
Device-side analysis (Geräteseitige Analyse). Zeigt detaillierte Ergebnisse der geräteseitigen Analyse an, einschließlich der Geräteschrittzeit und des Zeitraums, in dem das Gerät bei jedem Schritt kernübergreifend auf Eingabedaten wartet.
Host-side analysis (Hostseitige Analyse). Zeigt eine detaillierte Analyse auf der Hostseite an, einschließlich einer Aufschlüsselung der Eingabeverarbeitungszeit auf dem Host.

Zusammenfassung der Eingabepipeline

Im ersten Abschnitt wird angegeben, ob Ihr Programm eingabegebunden ist. Dazu wird der Prozentsatz der Gerätezeit angezeigt, die mit Warten auf Eingaben vom Host verbracht wurde. Wenn Sie eine instrumentierte standardmäßige Eingabepipeline verwenden, gibt das Tool an, wo der größte Teil der Verarbeitungszeit für die Eingabe aufgewendet wird. Beispiel:

Geräteseitige Analyse

Der zweite Abschnitt zeigt die Details der geräteseitigen Analyse. Sie können daran erkennen, wie viel Zeit auf dem Gerät im Vergleich zum Host aufgewendet wurde und wie viel Gerätezeit mit Warten auf Eingabedaten vom Host verbracht wurde.

Statistiken zu Geräteschritten. Gibt den Mittelwert, die Standardabweichung und den Bereich (Minimum, Maximum) der Geräteschrittzeit an.
Schrittzeit. Zeigt ein Diagramm der Geräteschrittzeit in Millisekunden über alle Stichproben hinweg an. Der blaue Bereich entspricht dem Teil der Schrittzeit, in der Cloud TPUs im Leerlauf auf Eingabedaten vom Host gewartet haben. Der rote Bereich zeigt an, wie lange die Cloud TPU tatsächlich aktiv war.
Prozentsatz der Zeit, die auf Eingabedaten gewartet wurde. Gibt den Mittelwert, die Standardabweichung und den Bereich (Minimum bis Maximum) des Anteils der Zeit an, der auf dem Gerät mit Warten auf Eingabedaten verbracht wurde, normalisiert anhand der gesamten Geräteschrittzeit.
Bereich der Gerätezeit über alle Kerne, die für das Warten auf Eingabedaten nach Schrittzahl aufgewendet wurde. Zeigt ein Liniendiagramm mit der Gerätezeit (ausgedrückt als Prozentsatz der gesamten Geräteschrittzeit) an, die auf die Eingabedatenverarbeitung gewartet wurde. Da der Zeitanteil von Kern zu Kern variiert, wird auch der Fraktionsbereich für jeden Kern für jeden Schritt dargestellt. Da die Zeit, die ein Schritt benötigt, vom langsamsten Kern abhängt, sollte der Bereich so klein wie möglich sein.

Hostseitige Analyse

Abschnitt 3 zeigt Details der hostseitigen Analyse, wobei die Eingabeverarbeitungszeit auf dem Host, also die für die Dataset API-Vorgänge benötigte Zeit, in mehrere Kategorien aufgeschlüsselt wird:

An Gerät zu übertragende Daten in Warteschlange stellen. Zeit, die aufgewendet wird, um die Daten in eine Einspeisewarteschlange zu stellen, bevor sie an das Gerät übertragen werden.
Datenvorverarbeitung. Zeitaufwand für Vorverarbeitungsvorgänge, z. B. für die Bild-Dekomprimierung.
Daten vorab aus Dateien lesen. Zeit, die für das Lesen von Dateien aufgewendet wird, einschließlich Caching, Prefetching und Verschränkung.
Daten bei Bedarf aus Dateien lesen. Zeit, die für das Lesen von Daten aus Dateien aufgewendet wird, ohne Caching, Prefetching und Verschränkung.
Sonstige Daten lesen oder verarbeiten. Zeit für andere eingabebezogene Vorgänge, die tf.data nicht verwenden.

Wenn Sie die Statistik von einzelnen Eingabevorgängen und ihrer Kategorien nach Ausführungszeit aufgeschlüsselt sehen möchten, erweitern Sie den Bereich "Statistik für Eingabevorgang anzeigen".

Es wird eine Quelldatentabelle wie die folgende angezeigt:

Jeder Tabelleneintrag enthält folgende Informationen:

Input Op (Eingabevorgang). Zeigt den TensorFlow-Vorgangsnamen des Eingabevorgangs an.
Anzahl. Zeigt die Gesamtzahl der Vorgangsinstanzen an, die während des Profilerstellungszeitraums ausgeführt wurden.
Gesamtzeit (in ms). Zeigt die kumulative Zeit an, die für jede Vorgangsinstanz aufgewendet wurde.
Gesamtzeit %: Gibt die für einen Vorgang aufgewendete Zeit als Anteil der Gesamtzeit an, die für die Eingabeverarbeitung aufgewendet wurde.
Gesamtzeit (in ms). Gibt die gesamte Eigenzeit an, die für jede dieser Instanzen aufgewendet wurde. Die Eigenzeit misst hier die Zeit, die im Funktionsblock aufgewendet wurde, abzüglich der Zeit, die für eine aufgerufene Funktion benötigt wurde. Beispiel: Die Funktion Iterator::PaddedBatch::Filter::ForeverRepeat::Map wird von Iterator::PaddedBatch::Filter aufgerufen, daher wird ihre gesamte Eigenzeit von der gesamten Eigenzeit der letzteren Funktion abgezogen.
Gesamte Eigenzeit %: Gibt die gesamte Eigenzeit als Anteil der Gesamtzeit an, die für die Eingabeverarbeitung aufgewendet wurde.
Kategorie: Zeigt die Verarbeitungskategorie des Eingabevorgangs an.

Op Profile

Op Profile ist ein Cloud TPU-Tool zur Anzeige der Leistungsstatistiken von XLA-Vorgängen, die während der Dauer der Profilerstellung ausgeführt wurden. Op Profile zeigt folgendes:

Wie gut Ihre Anwendung die Cloud TPU verwendet als Prozentsatz der Zeit, die für Vorgänge nach Kategorie und TPU-FLOPS-Auslastung aufgewendet wird
Vorgänge, die am zeitaufwendigsten waren. Diese Vorgänge sind potenzielle Ziele für die Optimierung.
Details zu einzelnen Vorgängen, einschließlich Form, Auffüllung und Ausdrücken, die den Vorgang verwenden.

Sie können Op Profile verwenden, um gute Ziele für die Optimierung zu finden. Wenn Ihr Modell beispielsweise nur 5 % des FLOPS-Höchstwertes der TPU erreicht, können Sie mit dem Tool ermitteln, welche XLA-Vorgänge die längste Ausführungszeit benötigen und wie viele TPU-FLOPS sie verbrauchen.

Op Profile verwenden

Bei der Profilerstellung erstellt capture_tpu_profile auch eine Datei namens op_profile.json, die Leistungsstatistiken von XLA-Vorgängen enthält.

Sie können die Daten von op_profile in TensorBoard anzeigen. Dazu klicken Sie oben auf dem Bildschirm auf den Tab Profile (Profil) und wählen dann aus dem Drop-down-Menü op_profile Tools aus. Sie sehen eine Anzeige wie diese:

Übersichtsabschnitt. Zeigt die Cloud TPU-Auslastung an und stellt Optimierungsvorschläge bereit.
Systemsteuerung. Enthält Steuerelemente, mit denen Sie Anzahl und Art der in der Tabelle angezeigten Vorgänge festlegen können und wie sie sortiert werden.
OP table (Vorgangstabelle). Eine Tabelle mit den wichtigsten TensorFlow-Vorgangskategorien, jeweils den XLA-Vorgängen zugeordnet. Diese Vorgänge werden nach Prozentsatz der Cloud TPU-Nutzung sortiert.
Op details cards (Karte mit Vorgangsdetails). Zeigen Details zum Vorgang an, wenn Sie den Mauszeiger über einen Vorgang in der Tabelle bewegen. Diese enthalten die FLOPS-Auslastung, den Ausdruck, in dem der Vorgang verwendet wird, und das Vorgangslayout (Passform).

XLA-Vorgangstabelle

In der Vorgangstabelle werden XLA-Vorgangskategorien in der Reihenfolge vom höchsten zum niedrigsten Prozentsatz der Cloud TPU-Nutzung aufgelistet. Als Erstes werden in der Tabelle der Prozentsatz der benötigten Zeit, der Name der Vorgangskategorie, der zugehörige TensorFlow-Vorgangsname und der Prozentsatz der FLOPS-Auslastung für die Kategorie angezeigt. Wenn Sie in der Tabelle auf das Dreieck neben dem Kategorienamen klicken, können Sie die 10 zeitaufwendigsten XLA-Vorgänge für eine Kategorie aufrufen oder ausblenden.

Zeit: Gibt die Gesamtzeit in Prozent an, die von allen Vorgängen in dieser Kategorie beansprucht wurde. Sie können auf einen Eintrag klicken, um ihn zu maximieren und die Aufschlüsselung der beanspruchten Zeit nach den einzelnen Vorgängen anzuzeigen.
Top 10 der Vorgänge: Der Schieberegler neben dem Namen einer Kategorie blendet die zehn wichtigsten zeitaufwendigen Vorgänge in der Kategorie ein bzw. aus. Wenn ein Fusionvorgangseintrag in der Vorgangsliste angezeigt wird, können Sie ihn erweitern, um die darin enthaltenen nicht fusionierten, elementweisen Vorgänge anzuzeigen.
TensorFlow Op (TensorFlow-Vorgang): Enthält den Namen des TensorFlow-Vorgangs, der zum XLA-Vorgang gehört.
FLOPS. Zeigt die FLOPS-Auslastung an. Dabei handelt es sich um die gemessene Anzahl von FLOPS, ausgedrückt als Prozentsatz der höchsten Cloud TPU-FLOPS. Je höher der Prozentsatz der FLOPS-Auslastung ist, desto schneller werden die Vorgänge ausgeführt. Die Tabellenzelle ist farbcodiert: grün steht für hohe FLOPS-Auslastung (gut) und rot für niedrige FLOPS-Auslastung (schlecht).

Karten mit Vorgangsdetails

Wenn Sie einen Tabelleneintrag auswählen, wird eine Karte mit Details zum XLA-Vorgang oder zur Vorgangskategorie angezeigt. Eine typische Karte sieht so aus:

Name und Kategorie. Zeigt den hervorgehobenen XLA-Vorgangsnamen und die hervorgehobene Kategorie.
FLOPS utilization (FLOPS-Auslastung). Zeigt die FLOPS-Auslastung als Prozentsatz der insgesamt möglichen FLOPS an.
Expression (Ausdruck): Zeigt den XLA-Ausdruck an, der den Vorgang enthält.
Memory Utilization (Speicherauslastung): Zeigt den Anteil der maximalen Speicherauslastung durch Ihr Programm an.
Layout (nur Faltungsvorgänge): Gibt Form und Layout eines Tensors an, einschließlich der Frage, ob die Form des Tensors genau zu den Matrixeinheiten passt und welche Abstände die Matrix verwendet.

Ergebnisse interpretieren

Für Faltungsvorgänge kann die TPU-FLOPS-Auslastung aus einem oder beiden der folgenden Gründe niedrig sein:

Auffüllung (Matrixeinheiten werden teilweise verwendet)
Faltungsvorgang ist speichergebunden

In diesem Abschnitt gibt es eine Interpretation einiger Zahlen aus einem anderen Modell, in dem die FLOPS niedrig waren. In diesem Beispiel dominierten die Ausgabefusion und die Faltung die Ausführungszeit und es gab einen langen Abschnitt von Vektor- oder Skalarvorgängen mit sehr niedrigen FLOPS-Werten.

Eine Optimierungsstrategie für diesen Profiltyp besteht darin, die Vektor- oder Skalarvorgänge in Faltungsvorgänge umzuwandeln.

Im folgenden Beispiel zeigt %convolution.399 eine niedrigere FLOPS- und Speicherauslastung als %convolution.340 im vorherigen Beispiel.

Bei genauerer Betrachtung des Layouts sehen Sie, dass die Batchgröße von 16 auf 128 und die Funktionsgröße von 3 auf 8 aufgefüllt wird. Dies bedeutet, dass nur 5 % der Matrixeinheiten effektiv genutzt werden. Die Berechnung für diese Instanz der prozentualen Auslastung lautet: ((batch_time * num_of_features)/padding_size)/num_of_cores. Die FLOPS in diesem Beispiel können Sie mit der %convolution.340 im vorherigen Beispiel vergleichen, die genau in die Matrix passt.

Pod Viewer

Das Tool Pod Viewer stellt Leistungsvisualisierungen für jeden Kern in einem Pod bereit und zeigt den Status der Kommunikationskanäle in den Kernen eines Pods an. Pod Viewer kann potenzielle Engpässe und Bereiche, die optimiert werden müssen, identifizieren und hervorheben. Das Tool funktioniert für vollständige Pods und alle v2- und v3-Pod-Slices.

So zeigen Sie das Tool Pod Viewer an:

Wählen Sie oben rechts im TensorBoard-Fenster in der Menüschaltfläche die Option Profil aus.
Klicken Sie auf der linken Seite des Fensters auf das Menü Tools und wählen Sie pod_viewer aus.

Die Benutzeroberfläche des Pod Viewers enthält:

Einen Schrittregler, mit dem Sie auswählen können, welcher Schritt untersucht werden soll.
Ein Topologiediagramm, das Ihre TPU-Kerne im gesamten TPU-System interaktiv visualisiert.
Ein Kommunikationsverbindungsdiagramm, das die Sende- und Empfangskanäle (Recv-Kanäle) im Topologiediagramm darstellt.
Eine Latenz des Balkendiagramms für Sende- und Recv-Kanäle. Wenn Sie den Mauszeiger über einen Balken in diesem Diagramm bewegen, werden die Kommunikationsverbindungen im Kommunikationsverbindungsdiagramm aktiviert. In der Leiste auf der linken Seite wird eine Karte mit detaillierten Informationen zum Kanal angezeigt, z. B. zur Größe der übertragenen Daten, zur Latenz und zur Bandbreite.
Ein Schrittaufschlüsselungsdiagramm, das eine Aufschlüsselung eines Schritts für alle Kerne darstellt. Dies kann verwendet werden, um Systemengpässe zu verfolgen und festzustellen, ob ein bestimmter Kern das System verlangsamt.

Bild

Schrittregler

Mit dem Schrittregler wählen Sie einen Schritt aus. Der Rest des Tools zeigt Statistiken wie Schrittaufschlüsselung und Kommunikationslinks für diesen Schritt an.

Topologiediagramm

Das Topologiediagramm ist hierarchisch nach Host, Chip und Kern organisiert. Die kleinsten Rechtecke sind TPU-Kerne. Zwei Kerne zusammen kennzeichnen einen TPU-Chip und vier Chips zusammen kennzeichnen einen Host.

Bild

Das Topologiediagramm ist auch eine Heatmap, die farblich durch den Prozentsatz der Zeit gekennzeichnet ist, die eine bestimmte Aufteilung, z. B. Berechnen hoher Flops, Einspeisung, Senden usw., im ausgewählten Schritt in Anspruch nimmt. Der Balken direkt unter dem Topologiediagramm (in der folgenden Grafik dargestellt) zeigt eine Farbcodierung für die Verwendung von Kern und Chip. Die Farbe der Kerne zeigt die Auslastung von gelb bis blau. Bei Berechnungen hoher Flops bedeuten größere Zahlen und eine dunklere Farbe mehr Rechenzeit. Bei allen anderen Aufschlüsselungen weisen kleinere Zahlen und hellere Farben auf kürzere Wartezeiten hin. Wenn ein Kern dunkler als die anderen ist, könnte das ein möglicher Problembereich oder Hotspot sein.

Klicken Sie auf die Drop-down-Menüauswahl neben dem Systemnamen, der im Diagramm eingekreist ist, um die Aufschlüsselung auszuwählen, die Sie untersuchen möchten.

Bewegen Sie den Mauszeiger über eines der kleinen Rechtecke (einzelne Kerne), um einen Techtip mit der Position des Kerns im System, seiner globalen Chip-ID und dem Hostnamen anzuzeigen. Der Techtip enthält auch die Dauer der ausgewählten Aufschlüsselungskategorie, z. B. hohe Flops, und den Auslastungsgrad außerhalb eines Schritts.

Kommunikationskanäle

Mit diesem Tool können Sie Sende- und Empfangsverknüpfungen visualisieren, wenn Ihr Modell diese für die Kommunikation zwischen Kernen verwendet. Wenn Ihr Modell Sende- und Empfangsvorgänge enthält, können Sie mithilfe eines Kanal-ID-Selektors eine Kanal-ID auswählen. Eine Verbindung vom Quellkern (src) zum Zielkern (dst) repräsentiert den Kommunikationskanal. Er wird im Topologiediagramm dargestellt, wenn Sie den Mauszeiger über die Balken im Diagramm bewegen, die die Latenz von Sende- und Empfangskanälen zeigen.

In der linken Leiste wird eine Karte mit weiteren Details zum Kommunikationskanal angezeigt. Eine typische Karte sieht so aus:

Data Transferred (Übertragene Daten): Zeigt die vom Sende- und Empfangskanal übertragenen Daten in Mebibyte (MiB) an.
Latency (Latenz): Zeigt die Dauer in Mikrosekunden vom Beginn des Sendeereignisses bis zum Ende des Empfangsereignisses an.
BW (Bandbreite): Zeigt die übertragene Datenmenge vom Quellkern zum Zielkern während der Ausführungsdauer in Gibibyte (GiB) an.
Send Delay (Sendeverzögerung): Zeigt die Zeit zwischen dem Empfangsabschluss und dem Sendebeginn in Mikrosekunden an. Wenn der Empfangsabschlussvorgang nach dem Beginn des Sendevorgangs startet, ist die Verzögerung gleich null.
Hlo Names (Hlo-Namen): Zeigt die mit diesem Kanal verknüpften XLA-Hlo-Vorgangsnamen an. Diese Hlo-Namen werden mit den Statistiken verknüpft, die in anderen TensorBoard-Tools wie op_profile und memory_viewer angezeigt werden.

Schrittaufschlüsselungsdiagramm

Diese Tabelle enthält Details zu den Trainings- oder Bewertungsschritten.

Die x-Achse ist die globale Chip-ID und die y-Achse ist die Zeit in Mikrosekunden. In diesem Diagramm können Sie sehen, wo die Zeit in einem bestimmten Trainingsschritt aufgewendet wird, wo sich Engpässe befinden und ob ein Ungleichgewicht der Last über alle Chips hinweg besteht.

In der linken Leiste wird eine Karte angezeigt, die weitere Details zur Schrittaufschlüsselung enthält. Eine typische Karte sieht so aus:

Die Felder in der Karte geben Folgendes an:

High flops compute (Berechnungen hoher Flops): Die Zeit, die für Faltungs- oder Ausgabefusionsvorgänge aufgewendet wird.
Low flops compute (Berechnung niedriger Flops): Für diese Berechnung werden alle anderen Aufschlüsselungen von der Gesamtdauer abgezogen.
Infeed (Einspeisung): Die Zeit, die die TPU auf dem Host wartet.
Outfeed (Ausspeisung): Die Zeit, die der Host auf die Ausgabe von der TPU wartet.
AllReduce sync (AllReduce-Synchronisierung): Der Zeitabschnitt, der für CrossReplicaSum-Vorgänge aufgewendet wird, die auf die Synchronisierung mit anderen Kernen warten. CrossReplicaSum-Vorgänge berechnet die Summe über alle Replikate hinweg.
AllReduce compute (Berechnung von AllReduce): Die tatsächliche Rechenzeit, die für CrossReplicaSum-Vorgänge aufgewendet wird.
Chip to chip send ops (Chip-zu-Chip-Sendevorgänge): Die Zeit, die für Sendevorgänge aufgewendet wird.
Chip to chip recv-done ops (Chip-zu-Chip-Empfangsabschlussvorgänge): Die Zeit, die für Empfangsvorgänge aufgewendet wird.

Trace Viewer

Trace Viewer enthält eine Zeitachse mit folgenden Informationen:

Dauer für die Vorgänge, die von Ihrem TensorFlow-Modell ausgeführt wurden.
Teil des Systems (TPU oder Hostcomputer), in dem ein Vorgang ausgeführt wurde. Normalerweise führt der Hostcomputer Einspeisevorgänge zur Vorverarbeitung der Trainingsdaten und deren Übertragung an die TPU aus, während die TPU das eigentliche Modelltraining übernimmt.

Der Trace Viewer ist auf eine Million Ereignisse pro Cloud TPU beschränkt. Wenn Sie weitere Ereignisse bewerten müssen, verwenden Sie stattdessen den Streaming Trace Viewer.

Trace Viewer-Oberfläche

Dieser Bildschirm enthält hauptsächlich folgende Elemente (oben mit Nummern gekennzeichnet):

Drop-down "Runs" (Durchläufe): Enthält alle Durchläufe, für die Trace-Informationen erfasst wurden. Die Standardansicht ist Ihr letzter Durchlauf. Sie können die Drop-down-Liste jedoch öffnen, um einen anderen Durchlauf auszuwählen.
Drop-down "Tools": Wählt verschiedene Tools zur Profilerstellung aus.
Drop-down "Host": Wählt einen Host aus, der einen Cloud TPU-Satz enthält.
Bereich "Timeline" (Zeitachse): Zeigt Vorgänge an, die Cloud TPU und der Hostcomputer im Laufe der Zeit ausgeführt haben.
Bereich "Details": Zeigt zusätzliche Informationen zu Vorgängen an, die im Zeitachsenbereich ausgewählt wurden.

Eine genauere Ansicht des Zeitachsenbereichs:

Der Zeitachsenbereich setzt sich aus folgenden Elementen zusammen:

Leiste am oberen Rand: Enthält verschiedene zusätzliche Steuerelemente.
Zeitachse: Zeigt die Zeit in Relation zum Trace-Anfang an.
Abschnitts- und Tracklabels: Jeder Abschnitt enthält mehrere Tracks und ein Dreieck auf der linken Seite, auf das Sie klicken können, um den Abschnitt zu maximieren bzw. zu minimieren. Jedes Verarbeitungselement im System ist durch einen Abschnitt vertreten.
Toolauswahl: Enthält verschiedene Tools für die Interaktion mit dem Trace Viewer.
Ereignisse: Zeigen die Ausführungszeiten von Vorgängen oder die Dauer von Metaereignissen wie Trainingsschritten an.
Vertikale Tableiste: Dies ist für Cloud TPU nicht sinnvoll. Die Leiste ist Teil des von Chrome bereitgestellten universellen Trace Viewer-Tools, das für eine Vielzahl von Leistungsanalyseaufgaben verwendet wird.

Abschnitte und Tracks

Trace Viewer enthält folgende Abschnitte:

Ein Abschnitt für jeden TPU-Knoten, der mit der Nummer des TPU-Chips und des TPU-Knotens innerhalb des Chips beschriftet ist (zum Beispiel "Chip 2: TPU Core 1"). Jeder TPU-Knotenabschnitt enthält folgende Tracks:
- Schritt. Zeigt die Dauer der Trainingsschritte an, die auf der TPU ausgeführt wurden.
- TensorFlow Ops (TensorFlow-Vorgänge): Zeigt die auf der TPU ausgeführten TensorFlow-Vorgänge an.
- XLA Ops (XLA-Vorgänge): Zeigt XLA-Vorgänge an, die auf der TPU ausgeführt wurden. Jeder Vorgang wird in einen oder mehrere XLA-Vorgänge übersetzt. Der XLA-Compiler übersetzt die XLA-Vorgänge in Code, der auf der TPU ausgeführt wird.
Ein Abschnitt für Threads, die auf der CPU des Hostcomputers ausgeführt werden, mit der Bezeichnung "Host Threads": Dieser Abschnitt enthält einen Track für jeden CPU-Thread. Hinweis: Sie können die neben den Abschnittslabels angezeigten Informationen ignorieren.

Toolauswahl für die Zeitachse

So verwenden Sie die Zeitachsentools:

	Auswahltool Klicken Sie auf ein Ereignis, um es auszuwählen, oder klicken und ziehen Sie, um mehrere Ereignisse auszuwählen. Im Detailbereich werden daraufhin zusätzliche Informationen (Name, Startzeit und Dauer) zu den ausgewählten Ereignissen angezeigt.
	Verschieben-Tool Klicken und ziehen Sie, um die Zeitachsenansicht horizontal und vertikal zu verschieben.
	Zoom-Tool Klicken und ziehen Sie nach oben, um die horizontale Zeitachse heranzuzoomen, oder klicken und ziehen Sie nach unten, um herauszuzoomen. Die horizontale Position des Mauszeigers bestimmt den Mittelpunkt, um den herum gezoomt wird. Hinweis: Im Zoom-Tool tritt ein bekannter Fehler auf: Wenn sich der Mauszeiger beim Loslassen der Maustaste außerhalb der Zeitachsenansicht befindet, bleibt der Zoom aktiv. Falls Ihnen das passiert, klicken Sie einfach kurz auf die Zeitachsenansicht, um das Zoomen zu stoppen.
	Zeitintervall-Tool Klicken und ziehen Sie horizontal, um ein Zeitintervall zu markieren. Die Länge des Intervalls wird auf der Zeitachse angezeigt. Wenn Sie das Intervall anpassen möchten, ziehen Sie seine Enden. Zum Löschen des Intervalls klicken Sie auf eine beliebige Stelle in der Zeitachsenansicht. Das Intervall bleibt markiert, wenn Sie eines der anderen Tools auswählen.

Ereignisse

Ereignisse innerhalb der Zeitachse werden in verschiedenen Farben angezeigt. die Farben selbst haben keine bestimmte Bedeutung.

Zeitachsenleiste am oberen Rand

Die Leiste am oberen Rand des Zeitachsenbereichs enthält verschiedene zusätzliche Steuerelemente:

Metadata display (Metadatenanzeige): Wird für TPUs nicht verwendet.
View Options (Ansichtsoptionen): Wird für TPUs nicht verwendet.
Suchfeld: Hier geben Sie Text ein, um nach allen Ereignissen zu suchen, die diesen Text im Namen enthalten. Wenn Sie auf die Pfeilschaltflächen rechts neben dem Suchfeld klicken, können Sie sich durch die übereinstimmenden Ereignisse vor- und zurückbewegen und die einzelnen Ereignisse der Reihe nach auswählen.
Schaltfläche "Konsole": Wird für TPUs nicht verwendet.
Schaltfläche "Hilfe": Wenn Sie auf diese Schaltfläche klicken, erhalten Sie Hilfe in zusammengefasster Form.

Tastenkombinationen

Hier finden Sie die Tastenkombinationen, die Sie im Trace Viewer verwenden können. Klicken Sie auf die Hilfe-Schaltfläche (?) in der Leiste am oberen Rand, um sich weitere Tastenkürzel anzeigen zu lassen.

    w Zoom in
    s Zoom out
    a Pan left
    d Pan right
    f Zoom to selected event(s)
    m Mark time interval for selected event(s)
    1 Activate selection tool
    2 Activate pan tool
    3 Activate zoom tool
    4 Activate timing tool

Das Tastenkürzel f kann sehr nützlich sein. Wenn Sie einen Schritt auswählen und f drücken, können Sie den Schritt schnell heranzoomen.

Charakteristische Ereignisse

Hier sind einige der Ereignistypen aufgeführt, die bei der Analyse der TPU-Leistung sehr hilfreich sein können.

Bild

InfeedDequeueTuple. Dieser TensorFlow-Vorgang wird auf einer TPU ausgeführt und empfängt Eingabedaten vom Host. Wenn die Einspeisung lange dauert, können die TensorFlow-Vorgänge zur Vorverarbeitung von Daten auf dem Hostcomputer möglicherweise nicht mit der TPU-Datenverbrauchsrate Schritt halten. In den Host-Traces sind entsprechende Ereignisse namens InfeedEnqueueTuple zu sehen. Mit dem Tool Input Pipeline Analyzer können Sie eine detailliertere Analyse der Eingabepipeline aufrufen.
CrossReplicaSum. Dieser TensorFlow-Vorgang wird auf einer TPU ausgeführt und berechnet eine Summe über Replikate hinweg. Da jedes Replikat einem anderen TPU-Knoten entspricht, muss der Vorgang warten, bis alle TPU-Knoten mit einem Schritt fertig sind. Wenn dieser Vorgang lange dauert, bedeutet dies möglicherweise nicht, dass der Summierungsvorgang selbst langsam ist, sondern dass ein TPU-Knoten auf einen anderen TPU-Knoten mit langsamer Dateneinspeisung wartet.

Datensatzvorgänge. Der Trace Viewer visualisiert Dataset-Vorgänge, die beim Laden von Daten mithilfe der Dataset API ausgeführt werden. Der Iterator::Filter::Batch::ForeverRepeat::Memory im Beispiel wird kompiliert und entspricht dem Vorgang dataset.map() . Mit dem Trace Viewer untersuchen Sie die Ladevorgänge, während Sie die Fehlerbehebung machen und Engpässe in der Eingabepipeline minimieren.

Prefetch Threads. Wenn Sie dataset.prefetch() zum Zwischenspeichern von Eingabedaten verwenden, können Sie gelegentliche Verlangsamungen beim Dateizugriff verhindern, die zu Engpässen in der Eingabepipeline führen.

Problempunkte

Im Folgenden sind einige potenzielle Probleme aufgeführt, die bei der Verwendung von Trace Viewer zu beachten sind:

Begrenzung der Ereignisanzeige. Der Trace Viewer zeigt maximal eine Million Ereignisse an. Wenn Sie mehr Ereignisse erfasst haben, werden nur die ersten 1 Million Ereignisse angezeigt. Spätere Ereignisse werden verworfen. Sie können weitere TPU-Ereignisse mit dem Flag --include_dataset_ops=False erfassen, damit capture_tpu_profile die Dataset-Vorgänge explizit ausschließt.
Sehr lange Ereignisse. Ereignisse, die vor dem Beginn einer Erfassung beginnen oder nach dem Abschluss einer Erfassung enden, werden im Trace Viewer nicht angezeigt. Folglich können sehr lange Ereignisse übersehen werden.
Start der Trace-Erfassung. Starten Sie die Trace-Erfassung erst, wenn Sie wissen, dass die Cloud TPU ausgeführt wird. Wenn Sie davor beginnen, werden im Trace Viewer möglicherweise nur wenige oder gar keine Ereignisse angezeigt. Sie können die Profilzeit mit dem Flag --duration_ms erhöhen und mit dem Flag --num_tracing_attempts automatische Wiederholungsversuche einstellen. Beispiel:
```
  (vm)$ capture_tpu_profile --tpu=$TPU_NAME
    --logdir=${MODEL_DIR} --duration_ms=60000 --num_tracing_attempts=10
    
```

Memory Viewer

Mit dem Memory Viewer können Sie die maximale Speicherauslastung für Ihr Programm und die Speicherauslastungstrends über die Laufzeit des Programms hinweg visualisieren.

Die Memory Viewer-UI sieht so aus:

Bild

Drop-down "Host": Wählt aus, ob ein TPU-Host und XLA-HLO-Module (High Level Optimizer) angezeigt werden sollen.
Speicherübersicht: Zeigt die maximale Arbeitsspeicherzuweisung und -größe ohne Auffüllung an.
Arbeitsspeicherdiagramm: Zeigt die maximale Speichernutzung und ein Diagramm der Speichernutzungstrends über die Programmlebensdauer hinweg an. Wenn Sie den Mauszeiger über einen Zwischenspeicher in einem der Zwischenspeicherdiagramme bewegen, werden eine Anmerkung für die Zwischenspeicherlebensdauer und die Karte mit Zwischenspeicherdetails hinzugefügt.
Zwischenspeicherdiagramme: Zwei Diagramme, die die Zwischenspeicherzuordnung während der maximalen Speicherauslastung anzeigen, wie durch die vertikale Linie im Arbeitsspeicherdiagramm angegeben. Wenn Sie den Mauszeiger über einen Zwischenspeicher in einem der Zwischenspeicherdiagramme bewegen, werden die Lebensdaueranzeige des Zwischenspeichers im Arbeitsspeicherdiagramm und eine Detailkarte auf der linken Seite angezeigt.
Detailkarte zur Zwischenspeicherzuordnung: Zeigt Zuordnungsdetails für einen Zwischenspeicher an.

Speicherübersichtsbereich

Im Speicherübersichtsbereich werden der Modulname und die maximale Speicherzuordnung angezeigt, wenn die Gesamtgröße der Zwischenspeicherzuweisung das Maximum erreicht. Die nicht aufgefüllte Spitzenzuweisungsgröße wird ebenfalls zum Vergleich angezeigt.

Arbeitsspeicherdiagramm

In diesem Diagramm werden die maximale Speicherauslastung und ein Diagramm der Trends zur Speichernutzung über die Programmlebensdauer hinweg angezeigt. Die von oben nach unten gezogene Linie zeigt die maximale Speicherauslastung des Programms an. Dieser Punkt bestimmt, ob ein Programm in den verfügbaren globalen Speicherbereich passt.

Jeder Punkt im darüberliegenden Liniendiagramm repräsentiert einen vom Compiler geplanten "Programmpunkt" im HLO-Programm von XLA. Die Linie vermittelt einen Eindruck davon, wie steil die Kurve zu und von der Spitzenauslastung verläuft.

Interaktion mit Zwischenspeicherdiagrammelementen

Wenn Sie den Mauszeiger über einen Zwischenspeicher bewegen, der in einem der Zwischenspeicherdiagramme unterhalb des Arbeitsspeicherdiagramms angezeigt wird, wird im Arbeitsspeicherdiagramm eine horizontale Lebensdauerlinie für diesen Zwischenspeicher angezeigt. Die horizontale Linie hat dieselbe Farbe wie der markierte Zwischenspeicher.

Die Dicke der horizontalen Linie gibt die relative Größe des Zwischenspeichers zur maximalen Speicherzuordnung an. Die Zeilenlänge entspricht der Lebensdauer des Zwischenspeichers. Sie beginnt an der Stelle im Programm, an der der Zwischenspeicherplatz zugewiesen wurde, und endet an der Stelle, an der der Speicherplatz freigegeben wurde.

Zwischenspeicherdiagramme

Zwei Diagramme zeigen die Aufteilung der Speichernutzung am Spitzenlastpunkt, angezeigt durch die vertikale Linie im Graphen über den Diagrammen.

By Program Order (Nach Programmreihenfolge). Zeigt die Zwischenspeicher von links nach rechts in der Reihenfolge an, in der sie während der Programmausführung aktiv waren. Am längsten aktive Zwischenspeicher befinden sich auf der linken Seite des Diagramms.
By Size (Nach Größe). Zeigt die Zwischenspeicher absteigend nach Größe sortiert an, die während der Programmausführung aktiv waren. Zwischenspeicher, die während der maximalen Speichernutzung die größte Auswirkung hatten, befinden sich auf der linken Seite.

Detailkarte zur Zwischenspeicherzuordnung

Wenn Sie den Mauszeiger auf einen in einem der Diagramme angezeigten Zwischenspeicher bewegen, wird zusätzlich zu der im Arbeitsspeicherdiagramm angezeigten Linie eine Detailansicht der Zwischenspeicherzuweisung angezeigt. Eine typische Karte sieht so aus:

Bild

Name: Name des XLA-Vorgangs.
Kategorie: Vorgangskategorie.
Size (Größe): Größe der Zwischenspeicherzuordnung (einschließlich Auffüllung).
Unpadded size (Größe ohne Auffüllung): Größe der Zwischenspeicherzuordnung ohne Auffüllung.
Expansion (Erweiterung): Zwischenspeichergröße mit Auffüllung im Verhältnis zur Größe ohne Auffüllung.
Extra memory (Zusätzlicher Arbeitsspeicher): Gibt an, wie viel zusätzlicher Arbeitsspeicher für die Auffüllung verwendet wird
Shape (Form): Beschreibt Rang, Größe und Datentyp des n-dimensionalen Arrays.
TensorFlow op name (Namen des TensorFlow-Vorgangs): Zeigt den Namen des TensorFlow-Vorgangs an, der mit der Zwischenspeicherzuordnung verknüpft ist.
Allocation type (Zuordnungstyp). Gibt die Zwischenspeicherzuordnungskategorie an. Es gibt folgende Typen: Parameter, Ausgabe, Thread-lokal und Temporär (z. B. Zwischenspeicherzuordnung, die mit Fusion verknüpft ist).

"Out of memory"-Fehler

Wenn Sie ein Modell ausführen und der Fehler "out of memory" (Nicht genug Arbeitsspeicher) angezeigt wird, verwenden Sie den folgenden Befehl, um ein Speicherprofil zu erfassen und im Memory Viewer anzuzeigen. Achten Sie darauf, dass Sie die entsprechende duration_ms so festlegen, dass sich der Profilingszeitraum mit Ihrer Programmkompilierungszeit überschneidet. Die Ausgabe kann Ihnen dabei helfen, die Fehlerursache zu verstehen:

  (vm)$ capture_tpu_profile --tpu=$TPU_NAME --logdir=${MODEL_DIR} --duration_ms=60000

Streaming Trace Viewer

Der Streaming Trace Viewer (trace_viewer) ist ein Cloud TPU-Tool zur Leistungsanalyse, das für TensorFlow 2.16.1 oder höher verfügbar ist und dynamische Trace-Renderings ermöglicht. Das Tool verwendet den Chrome Trace Event Profiling Viewer, weshalb es nur im Chrome-Browser funktioniert.

Wenn Sie mit capture_tpu_profile ein Profil erfassen, wird eine Datei vom Typ .tracetable in Ihrem Google Cloud Storage-Bucket gespeichert. Die Datei enthält eine große Anzahl von Trace-Ereignissen, die sowohl im Trace Viewer als auch im Streaming Trace Viewer angezeigt werden können.

Streaming Trace Viewer verwenden

Sie müssen Ihre bestehende TensorBoard-Sitzung beenden und TensorBoard anschließend mit der IP-Adresse der zu untersuchenden TPU neu starten, um den Streaming Trace Viewer (trace_viewer) verwenden zu können. Streaming Trace Viewer erfordert, dass TensorBoard einen Google Remote-Prozeduraufruf (GRPC) an eine IP-Adresse für die Cloud TPU ausführt. Der GRPC-Kanal ist nicht verschlüsselt.

Sie finden die IP-Adressen von Cloud TPU-Hosts auf der Cloud TPU-Seite. Finden Sie Ihre Cloud TPU und suchen Sie in der Spalte Interne IP-Adresse nach der IP-Adresse.

Führen Sie TensorBoard in Ihrer VM wie im Folgenden beschrieben aus und ersetzen Sie dabei tpu-ip durch die IP-Adresse Ihrer TPU:

  (vm)$ tensorboard --logdir=${MODEL_DIR} \
    --master_tpu_unsecure_channel=tpu-ip

Das TensorBoard-Tool wird in der Drop-down-Liste Tools angezeigt.

In der Zeitachse können Sie heranzoomen, um Trace-Ereignisse dynamisch in Ihren Browser laden zu lassen.

Cloud TPU-Job überwachen

In diesem Abschnitt wird beschrieben, wie Sie mit capture_tpu_profile ein einzelnes Profil erfassen oder Ihren Cloud TPU-Job kontinuierlich in Echtzeit über die Befehlszeilenschnittstelle überwachen. Wenn Sie die Option --monitoring_level auf 0 (Standardeinstellung), 1 oder 2 einstellen, erhalten Sie ein einzelnes Profil, eine einfache Überwachung bzw. eine detaillierte Überwachung.

Öffnen Sie eine neue Cloud Shell und SSH für Ihre VM. Ersetzen Sie im Befehl vm-name durch Ihren VM-Namen:

  (vm)$ gcloud compute ssh vm-name \
  --ssh-flag=-L6006:localhost:6006

Führen Sie in der neuen Cloud Shell capture_tpu_profile mit dem Flag --monitoring_level auf 1 oder 2 aus, z. B.:

  (vm)$ capture_tpu_profile --tpu=$TPU_NAME \
   --monitoring_level=1

Mit der Einstellung monitoring_level=1 ergibt sich eine Ausgabe, die etwa so aussieht:

    TPU type: TPU v2
    Utilization of TPU Matrix Units is (higher is better): 10.7%

Mit monitoring_level=2 werden ausführlichere Informationen angezeigt:

    TPU type: TPU v2
    Number of TPU Cores: 8
    TPU idle time (lower is better): 0.091%
    Utilization of TPU Matrix Units is (higher is better): 10.7%
    Step time: 1.95 kms (avg), 1.90kms (minute), 2.00 kms (max)
    Infeed percentage: 87.5% (avg). 87.2% (min), 87.8 (max)

Flags überwachen

--tpu (erforderlich): Gibt den Namen der Cloud TPU an, die Sie überwachen möchten.
--monitoring_level: Ändert das Verhalten von capture_tpu_profile von der Erstellung eines einzelnen Profils zur einfachen oder detaillierten kontinuierlichen Überwachung. Es gibt drei verfügbare Ebenen. Ebene 0 (Standardeinstellung): Erzeugt ein einzelnes Profil und wird dann beendet. Ebene 1: zeigt die TPU-Version und die TPU-Auslastung an. Ebene 2: zeigt die TPU-Auslastung, die TPU-Leerlaufzeit und die Anzahl der verwendeten TPU-Kerne an. Gibt außerdem die minimalen, durchschnittlichen und maximalen Schrittzeiten zusammen mit dem prozentualen Beitrag zur Einspeisung an.
--duration_ms (optional, Standardwert ist 1000 ms): Gibt an, wie lange die Profilerstellung des TPU-Hosts in jedem Zyklus dauern soll. Im Allgemeinen sollte diese lang genug sein, um mindestens einen Trainingsschritt mit Daten zu erfassen. In einer Sekunde wird in den meisten Modellen ein Trainingsschritt erfasst. Wenn Ihre Modellschrittzeit jedoch sehr groß ist, können Sie den Wert auf 2 x step_time (in ms) einstellen.
--num_queries: Gibt an, wie viele Zyklen lang capture_tpu_profile ausgeführt wird. Sie stellen den Wert auf einen hohen Wert ein, um Ihren TPU-Job kontinuierlich zu überwachen. Sie setzen den Wert auf einen niedrigen Wert, um die Schrittzeit Ihres Modells schnell zu prüfen.