Sie sind sich nicht sicher, ob TPUs die richtige Wahl sind? Hier erfahren Sie, wann Sie in Compute Engine-Instanzen GPUs oder CPUs zum Ausführen Ihrer ML-Arbeitslasten verwenden sollten.
Überblick
Cloud TPUs sind darauf ausgelegt, eine kosteneffiziente Skalierung für eine Vielzahl von KI-Arbeitslasten zu ermöglichen – von Training über Feinabstimmung bis hin zu Inferenz. Cloud TPUs bieten die Vielseitigkeit, um Arbeitslasten in führenden KI-Frameworks wie PyTorch, JAX und TensorFlow zu erstellen. Große AI-Arbeitslasten lassen sich durch die Cloud TPU-Einbindung in Google Kubernetes Engine (GKE) nahtlos orchestrieren. Mit dem dynamischen Workload Scheduler können Sie alle benötigten Beschleuniger gleichzeitig planen und so die Skalierbarkeit von Arbeitslasten verbessern. Kunden, die AI-Modelle auf einfachste Art entwickeln möchten, können auch Cloud TPUs in Vertex AI, einer vollständig verwalteten AI-Plattform, nutzen.
Eine GPU ist ein spezieller Prozessor, der ursprünglich für die Manipulation von Computergrafiken entwickelt wurde. Ihre parallele Struktur macht sie ideal für Algorithmen, die große Datenblöcke verarbeiten, welche häufig in ML-Arbeitslasten enthalten sind. Weitere Informationen
Eine TPU ist ein anwendungsspezifischer integrierter Schaltkreis (Application-Specific Integrated Circuit, ASIC), der von Google für neuronale Netzwerke entwickelt wurde. TPUs haben spezielle Features wie die Matrixmultiplikationseinheit (MXU) und die proprietäre Interconnect-Topologie, die sich ideal für ein schnelleres KI-Training und für die Inferenz eignen.
Cloud TPU-Versionen
Cloud TPU-Version | Beschreibung | Verfügbarkeit |
---|---|---|
Trillium | Die bislang fortschrittlichste Cloud TPU | Während der Vorabversion ist Trillium in Nordamerika (Region „US-Ost“), Europa (Region „West“) und Asien (Region Nordost) verfügbar |
Cloud TPU v5p | Die leistungsstärkste Cloud TPU zum Trainieren von KI-Modellen | Cloud TPU v5p ist allgemein in Nordamerika (Region „US-Ost“) verfügbar |
Cloud TPU v5e | Eine vielseitige Cloud TPU für Trainings- und Inferenzanforderungen | Cloud TPU v5e ist allgemein in Nordamerika (Regionen (Mittel-/Ost-/Süd-/West der USA), Europa (Westregion) und Asien (Südostregion) verfügbar |
Weitere Informationen zu Cloud TPU-Versionen
Trillium
Die bislang fortschrittlichste Cloud TPU
Während der Vorabversion ist Trillium in Nordamerika (Region „US-Ost“), Europa (Region „West“) und Asien (Region Nordost) verfügbar
Cloud TPU v5p
Die leistungsstärkste Cloud TPU zum Trainieren von KI-Modellen
Cloud TPU v5p ist allgemein in Nordamerika (Region „US-Ost“) verfügbar
Cloud TPU v5e
Eine vielseitige Cloud TPU für Trainings- und Inferenzanforderungen
Cloud TPU v5e ist allgemein in Nordamerika (Regionen (Mittel-/Ost-/Süd-/West der USA), Europa (Westregion) und Asien (Südostregion) verfügbar
Weitere Informationen zu Cloud TPU-Versionen
Funktionsweise
Erhalten Sie einen Einblick in die Magie der Google Cloud TPUs und erhalten Sie einen seltenen Einblick in die Rechenzentren, in denen alles stattfindet. Kunden nutzen Cloud TPUs, um einige der weltweit größten KI-Arbeitslasten auszuführen, und die Leistung basiert nicht nur auf einem Chip. In diesem Video werfen wir einen Blick auf die Komponenten des TPU-Systems, darunter das Netzwerk von Rechenzentren, optische Schalter, Wasserkühlsysteme, biometrische Sicherheitsprüfung und mehr.
Gängige Einsatzmöglichkeiten
Mit MaxText und MaxDiffusion, den leistungsstarken, hoch skalierbaren Open-Source-Referenzbereitstellungen für das Training großer Modelle, sind Sie im Handumdrehen startbereit.
Maximieren Sie mit Cloud TPUs Leistung, Effizienz und Wertschöpfung.Skalieren Sie mit dem Cloud TPU-Multislice-Training auf Tausende von Chips.Messen und verbessern Sie mit ML Goodput Measurement die ML-Trainingsproduktivität in großem Maßstab.Mit MaxText und MaxDiffusion, den Open-Source-Referenzbereitstellungen für das Training großer Modelle, können Sie schnell loslegen.
Mit MaxText und MaxDiffusion, den leistungsstarken, hoch skalierbaren Open-Source-Referenzbereitstellungen für das Training großer Modelle, sind Sie im Handumdrehen startbereit.
Maximieren Sie mit Cloud TPUs Leistung, Effizienz und Wertschöpfung.Skalieren Sie mit dem Cloud TPU-Multislice-Training auf Tausende von Chips.Messen und verbessern Sie mit ML Goodput Measurement die ML-Trainingsproduktivität in großem Maßstab.Mit MaxText und MaxDiffusion, den Open-Source-Referenzbereitstellungen für das Training großer Modelle, können Sie schnell loslegen.
KI-Inferenzen mit JetStream und MaxDiffusion beschleunigen JetStream ist eine neue Inferenz-Engine, die speziell für LLM-Inferenzen (Large Language Model) entwickelt wurde. JetStream stellt einen erheblichen Fortschritt in puncto Leistung und Kosteneffizienz dar und bietet einen beispiellosen Durchsatz und eine beispiellose Latenz für LLM-Inferenzen auf Cloud TPUs. MaxDiffusion umfasst eine Reihe von Implementierungen von Diffusionsmodellen, die für Cloud TPUs optimiert sind. Dadurch wird die Ausführung von Inferenzen für Diffusionsmodelle auf Cloud TPUs mit hoher Leistung erleichtert.
Cloud TPU v5e ermöglicht leistungsstarke und kostengünstige Inferenz für eine Vielzahl von KI-Arbeitslasten, einschließlich der neuesten LLMs und Gen AI-Modelle. TPU v5e bietet eine bis zu 2,5-mal höhere Durchsatzleistung pro US-Dollar und eine bis zu 1,7-fache Beschleunigung gegenüber Cloud TPU v4. Jeder TPU v5e-Chip bietet bis zu 393 Billionen int8-Vorgänge pro Sekunde, sodass komplexe Modelle schnelle Vorhersagen treffen können. Ein TPU v5e-Pod bietet bis zu 100 Billiarden int8-Vorgänge pro Sekunde oder 100 PetaOps Rechenleistung.
KI-Inferenzen mit JetStream und MaxDiffusion beschleunigen JetStream ist eine neue Inferenz-Engine, die speziell für LLM-Inferenzen (Large Language Model) entwickelt wurde. JetStream stellt einen erheblichen Fortschritt in puncto Leistung und Kosteneffizienz dar und bietet einen beispiellosen Durchsatz und eine beispiellose Latenz für LLM-Inferenzen auf Cloud TPUs. MaxDiffusion umfasst eine Reihe von Implementierungen von Diffusionsmodellen, die für Cloud TPUs optimiert sind. Dadurch wird die Ausführung von Inferenzen für Diffusionsmodelle auf Cloud TPUs mit hoher Leistung erleichtert.
Cloud TPU v5e ermöglicht leistungsstarke und kostengünstige Inferenz für eine Vielzahl von KI-Arbeitslasten, einschließlich der neuesten LLMs und Gen AI-Modelle. TPU v5e bietet eine bis zu 2,5-mal höhere Durchsatzleistung pro US-Dollar und eine bis zu 1,7-fache Beschleunigung gegenüber Cloud TPU v4. Jeder TPU v5e-Chip bietet bis zu 393 Billionen int8-Vorgänge pro Sekunde, sodass komplexe Modelle schnelle Vorhersagen treffen können. Ein TPU v5e-Pod bietet bis zu 100 Billiarden int8-Vorgänge pro Sekunde oder 100 PetaOps Rechenleistung.
Eine robuste KI-/ML-Plattform berücksichtigt die folgenden Ebenen: (i) Infrastrukturorchestrierung, die GPUs zum Trainieren und Bereitstellen von Arbeitslasten in großem Maßstab unterstützt, (ii) Flexible Einbindung in verteiltes Computing und Datenverarbeitungs-Frameworks und (iii) Unterstützung für mehrere Teams in derselben Infrastruktur, um die Ressourcennutzung zu maximieren.
Kombinieren Sie die Leistungsfähigkeit von Cloud TPUs mit der Flexibilität und Skalierbarkeit von GKE, um Modelle für maschinelles Lernen schneller und einfacher als je zuvor zu erstellen und bereitzustellen. Dank der in GKE verfügbaren Cloud TPUs haben Sie jetzt eine einzige konsistente Betriebsumgebung für alle Arbeitslasten und können damit automatisierte MLOps-Pipelines standardisieren.
Eine robuste KI-/ML-Plattform berücksichtigt die folgenden Ebenen: (i) Infrastrukturorchestrierung, die GPUs zum Trainieren und Bereitstellen von Arbeitslasten in großem Maßstab unterstützt, (ii) Flexible Einbindung in verteiltes Computing und Datenverarbeitungs-Frameworks und (iii) Unterstützung für mehrere Teams in derselben Infrastruktur, um die Ressourcennutzung zu maximieren.
Kombinieren Sie die Leistungsfähigkeit von Cloud TPUs mit der Flexibilität und Skalierbarkeit von GKE, um Modelle für maschinelles Lernen schneller und einfacher als je zuvor zu erstellen und bereitzustellen. Dank der in GKE verfügbaren Cloud TPUs haben Sie jetzt eine einzige konsistente Betriebsumgebung für alle Arbeitslasten und können damit automatisierte MLOps-Pipelines standardisieren.
Kunden, die nach der einfachsten Möglichkeit zur Entwicklung von KI-Modellen suchen, können Cloud TPU v5e mit Vertex AI bereitstellen, einer End-to-End-Plattform zum Erstellen von KI-Modellen auf einer vollständig verwalteten Infrastruktur, die auf Bereitstellung mit niedriger Latenz und Hochleistungstraining ausgelegt ist.
Kunden, die nach der einfachsten Möglichkeit zur Entwicklung von KI-Modellen suchen, können Cloud TPU v5e mit Vertex AI bereitstellen, einer End-to-End-Plattform zum Erstellen von KI-Modellen auf einer vollständig verwalteten Infrastruktur, die auf Bereitstellung mit niedriger Latenz und Hochleistungstraining ausgelegt ist.
Preise
Cloud TPU-Preise | Alle Cloud TPU-Preise werden pro Chipstunde berechnet | ||
---|---|---|---|
Cloud TPU-Version | Kennenlernpreis (in $) | Zusicherung für 1 Jahr (USD) | Zusicherung für 3 Jahre (USD) |
Trillium | Starting at $ 2,7000 pro Chipstunde | Starting at 1,8900 $ pro Chipstunde | Starting at $ 1,2200 pro Chipstunde |
Cloud TPU v5p | Starting at 4,2000 $ pro Chipstunde | Starting at 2,9400 $ pro Chipstunde | Starting at 1,8900 $ pro Chipstunde |
Cloud TPU v5e | Starting at 1,2000 $ pro Chipstunde | Starting at 0,8400 $ pro Chipstunde | Starting at 0,5400 $ pro Chipstunde |
Cloud TPU-Preise variieren je nach Produkt und Region.
Cloud TPU-Preise
Alle Cloud TPU-Preise werden pro Chipstunde berechnet
Trillium
Starting at
$ 2,7000
pro Chipstunde
Starting at
1,8900 $
pro Chipstunde
Starting at
$ 1,2200
pro Chipstunde
Cloud TPU v5p
Starting at
4,2000 $
pro Chipstunde
Starting at
2,9400 $
pro Chipstunde
Starting at
1,8900 $
pro Chipstunde
Cloud TPU v5e
Starting at
1,2000 $
pro Chipstunde
Starting at
0,8400 $
pro Chipstunde
Starting at
0,5400 $
pro Chipstunde
Cloud TPU-Preise variieren je nach Produkt und Region.