Speicheroptionen für Cloud TPU-Daten

In diesem Dokument werden Datenspeicheroptionen beschrieben, die Sie beim Training von Modellen in der Cloud TPU verwenden können.

Einführung

Die Cloud TPU benötigt für folgende Aufgaben Datenspeicher:

Herunterladen und Vorverarbeiten von Datasets
Verarbeiten der Host-Eingabepipeline
Modelltrainingseingabe
Modelltrainingsausgabe

Für die Anwendungsdaten und Training-Datasets von Cloud TPU sind folgende Speicheroptionen verfügbar:

Langlebiger Blockspeicher, einschließlich Bootlaufwerk und angehängte Speicherlaufwerke
Cloud Storage-Buckets
Cloud Storage FUSE
Filestore-Dateifreigabe auf einer Compute Engine-VM

Weitere Informationen zur Speicherverwaltung finden Sie auf den folgenden Seiten:

Langlebiger Blockspeicher

Langlebiger Blockspeicher, auch als Laufwerke oder Volumes bezeichnet, ist für Daten bestimmt, die Sie beibehalten möchten, nachdem Sie Ihre TPU-VM angehalten, ausgesetzt oder gelöscht haben. Langlebiger Blockspeicher bleibt verfügbar, auch wenn die TPU-VM abstürzt oder ausfällt. Sie können das Bootlaufwerk der TPU-VM nutzen oder Ihrer TPU zusätzlichen Blockspeicher anhängen.

In den folgenden Fällen empfiehlt es sich, ein zusätzliches Laufwerk anzuhängen:

Ihr Trainingsdatensatz übersteigt die Kapazität des TPU-Bootlaufwerks.
Sie haben schreibgeschützte Daten und möchten mit einem Hyperdisk ML-Volume einen schnelleren Lesezugriff erzielen.

An eine Cloud TPU können zwei Arten von langlebigem Blockspeicher angehängt werden: Google Cloud Hyperdisk und Persistent Disk. Persistent Disk wird von der neuesten VM-Reihe, einschließlich Cloud TPU v6e, nicht unterstützt. Google empfiehlt die Verwendung von Google Cloud Hyperdisk für höchste Leistung und erweiterte Funktionen.

TPU-VM-Bootlaufwerk

Standardmäßig enthält jede Cloud TPU-VM ein Bootlaufwerk mit 100 GiB, auf dem sich das Betriebssystem befindet. Das Bootlaufwerk kann auch zum temporären Speichern heruntergeladener Datasets für die Vorverarbeitung sowie von Modelleingabe- und Modellausgabedaten verwendet werden, wenn die Gesamtmenge nicht den verfügbaren Speicherplatz auf dem Bootlaufwerk überschreitet.

Die Größe des Bootlaufwerks auf einer Cloud TPU kann nicht geändert werden. Wenn Ihre Anwendung zusätzlichen Speicherplatz über die Standardgröße des Bootlaufwerks hinaus benötigt, können Sie Ihrer TPU-VM-Instanz ein oder mehrere langlebige Laufwerke hinzufügen. Weitere Informationen finden Sie unter Langlebigen Blockspeicher an eine TPU-VM anhängen.

Angehängter Speicher

Sowohl Hyperdisks als auch Persistent Disks sind langlebige Netzwerkspeichergeräte, auf die Ihre VM-Instanzen wie auf physische Laufwerke auf einem Computer oder Server zugreifen können. Beide Arten von Laufwerken werden unabhängig von Ihren VM-Instanzen erstellt, sodass Ihre Daten auch nach dem Löschen der VM-Instanzen erhalten bleiben.

Zu den Vorteilen von Hyperdisk gegenüber Persistent Disk gehören die anpassbare Leistung sowie die höheren IOPS- und Durchsatzlimits. Weitere Informationen zu Hyperdisk und Persistent Disk finden Sie unter Laufwerkstyp auswählen.

Weitere Informationen über langlebigen Blockspeicher mit TPU-VMs finden Sie unter Langlebigen Blockspeicher an eine TPU-VM anhängen.

Laufwerkssicherungen

Nicht immer lassen sich Daten problemlos vom Bootlaufwerk abrufen. Schwierig wird es zum Beispiel, wenn die TPU-VM im Status „Unbekannt“ hängen bleibt, oder gelöschte Daten wiederhergestellt werden müssen. Sichern Sie Ihre Daten daher unbedingt mit einer anderen Speicheroption, z. B. mit Cloud Storage-Buckets.

Wenn Sie Ihre Daten auf einem angehängten Laufwerk speichern, können Sie mit Laufwerk-Snapshots inkrementelle Sicherungen der Daten erstellen. Für das TPU-Bootlaufwerk werden Laufwerk-Snapshots nicht unterstützt. Weitere Informationen finden Sie unter Laufwerk-Snapshots.

Cloud Storage-Buckets

Cloud Storage-Buckets sind die flexibelste, skalierbarste und langlebigste Speicheroption für Ihre VM-Instanzen. Wenn Ihr Trainingsjob nicht die geringere Latenz eines langlebigen Blockspeichers benötigt, können Sie Ihr Dataset in einem Cloud Storage-Bucket speichern.

Die Leistung von Cloud Storage-Buckets hängt von der von Ihnen ausgewählten Speicherklasse und dem Ort des Buckets relativ zu Ihrer Instanz ab.

Wenn Sie Ihren Cloud Storage-Bucket in derselben Zone wie Ihre TPU-VM erstellen, ist die Leistung mit der eines langlebigen Blockspeichers vergleichbar, jedoch mit höherer Latenz und weniger konsistenten Durchsatzmerkmalen.

Alle Cloud Storage-Buckets haben eine integrierte Redundanz, um ihre Daten vor Geräteausfällen zu schützen und auch während Wartungsarbeiten im Rechenzentrum Datenverfügbarkeit zu ermöglichen. Für alle Cloud Storage-Vorgänge werden Prüfsummen berechnet, um sicherzugehen, dass die gelesenen Daten mit den geschriebenen übereinstimmen.

Im Gegensatz zum langlebigen Blockspeicher sind Cloud Storage-Buckets nicht auf die Zone beschränkt, in der sich Ihre Instanz befindet. Außerdem können Sie von mehreren Instanzen gleichzeitig Lese- und Schreibzugriffe auf ein Bucket ausführen. Beispielsweise können Sie für Instanzen aus mehreren Zonen ein Bucket bestimmen, in das geschrieben und aus dem gelesen wird, und müssen die Daten nicht in mehreren Zonen auf langlebigen Blockspeichern replizieren.

Weitere Informationen zum Verbinden Ihrer TPU-VM mit einem Cloud Storage-Bucket finden Sie unter Verbindung mit Cloud Storage-Buckets herstellen.

Cloud Storage FUSE

Mit Cloud Storage FUSE können Sie Cloud Storage-Buckets als lokale Dateisysteme bereitstellen und auf sie zugreifen. Auf diese Weise können Anwendungen mithilfe der Standard-Semantik des Dateisystems Objekte aus Ihrem Bucket lesen und Objekte in Ihren Bucket schreiben.

Weitere Informationen zur Funktionsweise von Cloud Storage FUSE und eine Beschreibung der Zuordnung von Cloud Storage FUSE-Vorgängen zu Cloud Storage-Vorgängen finden Sie unter Cloud Storage FUSE. Weitere Informationen zur Verwendung von Cloud Storage FUSE, z. B. zur Installation der Befehlszeile von Cloud Storage FUSE-und zur Bereitstellung von Buckets, finden Sie unter GitHub.

Filestore-Dateifreigabe

Die Filestore-Dateifreigabe ist ein vollständig verwalteter NAS-Speicher (Network Attached Storage) für Compute Engine. Filestore ist mit bestehenden Unternehmensanwendungen kompatibel und unterstützt alle NFSv3-kompatiblen Clients.

Cloud Filestore bietet eine niedrige Latenz für Dateivorgänge. Für latenzempfindliche Arbeitslasten unterstützt Filestore eine Kapazität von bis zu 100 TiB, einen Durchsatz von 25 GiB pro Sekunde und 720.000 IOPS bei minimalen Leistungsschwankungen.

Mit Filestore können Sie Dateifreigaben auf TPU-VMs bereitstellen.