Cloud TPUs optimieren Leistung und Kosten für alle AI-Arbeitslasten vom Training bis zur Inferenz. Mit der erstklassigen Infrastruktur von Rechenzentren bieten TPUs hohe Zuverlässigkeit, Verfügbarkeit und Sicherheit.
Sie sind sich nicht sicher, ob TPUs die richtige Wahl sind? Hier erfahren Sie, wann Sie in Compute Engine-Instanzen GPUs oder CPUs zum Ausführen Ihrer ML-Arbeitslasten verwenden sollten.
Überblick
Google Cloud TPUs sind speziell entwickelte KI-Beschleuniger, die für das Training und die Inferenz AI-Modelle optimiert sind. Sie eignen sich ideal für eine Vielzahl von Anwendungsfällen, z. B. Agents, Codegenerierung, Generierung von Medieninhalten, synthetische Sprache, Vision-Dienste, Empfehlungssysteme, Personalisierungsmodelle usw. TPUs sind die Grundlage für Gemini und alle KI-basierten Anwendungen von Google wie die Suche, Fotos und Maps, die von über einer Milliarde Nutzer verwendet werden.
Cloud TPUs sind darauf ausgelegt, eine kosteneffiziente Skalierung für eine Vielzahl von KI-Arbeitslasten zu ermöglichen – von Training über Feinabstimmung bis hin zu Inferenz. Cloud TPUs bieten die Vielseitigkeit, um Arbeitslasten in führenden KI-Frameworks wie PyTorch, JAX und TensorFlow zu erstellen. Große AI-Arbeitslasten lassen sich durch die Cloud TPU-Einbindung in Google Kubernetes Engine (GKE) nahtlos orchestrieren. Nutzen Sie den Dynamic Workload Scheduler, um die Skalierbarkeit von Arbeitslasten zu verbessern, indem Sie alle benötigten Beschleuniger gleichzeitig planen. Kunden, die AI-Modelle auf einfachste Art entwickeln möchten, können auch Cloud TPUs in Vertex AI, einer vollständig verwalteten AI-Plattform, nutzen.
Cloud TPUs sind für das Trainieren großer und komplexer Deep-Learning-Modelle mit vielen Matrixberechnungen optimiert, z. B. für das Erstellen von Large Language Models (LLMs). Cloud TPUs haben auch SparseCores, bei denen es sich um Dataflow-Prozessoren handelt, die Modelle beschleunigen, welche auf Einbettungen in Empfehlungsmodellen basieren. Weitere Anwendungsfälle gibt es beispielsweise im Gesundheitswesen, wie die Proteinfaltungsmodellierung und die Wirkstoffsuche.
Eine GPU ist ein spezieller Prozessor, der ursprünglich für die Manipulation von Computergrafiken entwickelt wurde. Ihre parallele Struktur macht sie ideal für Algorithmen, die große Datenblöcke verarbeiten, welche häufig in ML-Arbeitslasten enthalten sind. Weitere Informationen
Eine TPU ist ein anwendungsspezifischer integrierter Schaltkreis (Application-Specific Integrated Circuit, ASIC), der von Google für neuronale Netzwerke entwickelt wurde. TPUs haben spezielle Features wie die Matrixmultiplikationseinheit (MXU) und die proprietäre Interconnect-Topologie, die sich ideal für ein schnelleres KI-Training und für die Inferenz eignen.
Cloud TPU-Versionen
| Cloud TPU-Version | Beschreibung | Verfügbarkeit |
|---|---|---|
Ironwood | Unsere bisher leistungsstärkste und effizienteste TPU für umfangreiches Training und Inferenz | Die Ironwood TPU wird im 4. Quartal 2025 allgemein verfügbar sein |
Trillium | TPU der 6. Generation. Höhere Energieeffizienz und maximale Rechenleistung pro Chip für Training und Inferenz | Trillium ist in Nordamerika (Region „US East“), Europa (Region „West“) und Asien (Region „Northeast“) allgemein verfügbar. |
Cloud TPU v5p | Leistungsstarke TPU zum Erstellen großer, komplexer Foundation Models | Cloud TPU v5p ist in Nordamerika (Region „US East“) allgemein verfügbar. |
Cloud TPU v5e | Kostengünstige und zugängliche TPU für mittlere bis große Trainings- und Inferenz-Arbeitslasten | Cloud TPU v5e ist in Nordamerika (Regionen Central/East/South/ West der USA), Europa (Region West) und Asien (Region Southeast) allgemein verfügbar. |
Weitere Informationen zu Cloud TPU-Versionen
Ironwood
Unsere bisher leistungsstärkste und effizienteste TPU für umfangreiches Training und Inferenz
Die Ironwood TPU wird im 4. Quartal 2025 allgemein verfügbar sein
Trillium
TPU der 6. Generation. Höhere Energieeffizienz und maximale Rechenleistung pro Chip für Training und Inferenz
Trillium ist in Nordamerika (Region „US East“), Europa (Region „West“) und Asien (Region „Northeast“) allgemein verfügbar.
Cloud TPU v5p
Leistungsstarke TPU zum Erstellen großer, komplexer Foundation Models
Cloud TPU v5p ist in Nordamerika (Region „US East“) allgemein verfügbar.
Cloud TPU v5e
Kostengünstige und zugängliche TPU für mittlere bis große Trainings- und Inferenz-Arbeitslasten
Cloud TPU v5e ist in Nordamerika (Regionen Central/East/South/ West der USA), Europa (Region West) und Asien (Region Southeast) allgemein verfügbar.
Weitere Informationen zu Cloud TPU-Versionen
Funktionsweise
Erhalten Sie einen Einblick in die Magie der Google Cloud TPUs und erhalten Sie einen seltenen Einblick in die Rechenzentren, in denen alles stattfindet. Kunden nutzen Cloud TPUs, um einige der weltweit größten KI-Arbeitslasten auszuführen, und die Leistung basiert nicht nur auf einem Chip. In diesem Video werfen wir einen Blick auf die Komponenten des TPU-Systems, darunter das Netzwerk von Rechenzentren, optische Schalter, Wasserkühlsysteme, biometrische Sicherheitsprüfung und mehr.
Gängige Einsatzmöglichkeiten
Das Training von LLMs ist oft wie Alchemie, aber die Leistung Ihrer Modelle zu verstehen und zu optimieren, muss nicht so sein. Dieses Buch soll die Wissenschaft der Skalierung von Sprachmodellen auf TPUs entmystifizieren: Wie TPUs funktionieren und miteinander kommunizieren, wie LLMs auf echter Hardware laufen und wie Sie Ihre Modelle während des Trainings und der Inferenz parallelisieren, damit sie effizient in großem Maßstab laufen.
Mit Cloud TPUs Leistung, Effizienz und Time-to-Value maximieren Mit Cloud TPU Multislice-Training können Sie auf Tausende von Chips skalieren. Mit der ML-Goodput-Messung können Sie die Produktivität von ML-Trainings in großem Umfang messen und verbessern. Mit MaxText und MaxDiffusion, Open-Source-Referenzbereitstellungen für das Training großer Modelle, können Sie schnell loslegen.
Das Training von LLMs ist oft wie Alchemie, aber die Leistung Ihrer Modelle zu verstehen und zu optimieren, muss nicht so sein. Dieses Buch soll die Wissenschaft der Skalierung von Sprachmodellen auf TPUs entmystifizieren: Wie TPUs funktionieren und miteinander kommunizieren, wie LLMs auf echter Hardware laufen und wie Sie Ihre Modelle während des Trainings und der Inferenz parallelisieren, damit sie effizient in großem Maßstab laufen.
Mit Cloud TPUs Leistung, Effizienz und Time-to-Value maximieren Mit Cloud TPU Multislice-Training können Sie auf Tausende von Chips skalieren. Mit der ML-Goodput-Messung können Sie die Produktivität von ML-Trainings in großem Umfang messen und verbessern. Mit MaxText und MaxDiffusion, Open-Source-Referenzbereitstellungen für das Training großer Modelle, können Sie schnell loslegen.
Beschleunigen Sie die KI-Inferenz mit vLLM und MaxDiffusion. vLLM ist eine beliebte Open-Source-Inferenz-Engine, die für einen hohen Durchsatz und eine geringe Latenz bei der Inferenz von Large Language Models (LLMs) entwickelt wurde. vLLM wird von tpu-inference unterstützt und bietet jetzt vLLM TPU für LLM-Inferenz mit hohem Durchsatz und niedriger Latenz. Es vereint JAX und PyTorch, bietet eine breitere Modellabdeckung (Gemma, Llama, Qwen) und erweiterte Funktionen. MaxDiffusion optimiert die Inferenz von Diffusionsmodellen auf Cloud TPUs für eine hohe Leistung.
Cloud TPU v5e ermöglicht leistungsstarke und kostengünstige Inferenz für eine Vielzahl von KI-Arbeitslasten, einschließlich der neuesten LLMs und Gen AI-Modelle. TPU v5e bietet eine bis zu 2,5-mal höhere Durchsatzleistung pro US-Dollar und eine bis zu 1,7-fache Beschleunigung gegenüber Cloud TPU v4. Jeder TPU v5e-Chip bietet bis zu 393 Billionen int8-Vorgänge pro Sekunde, sodass komplexe Modelle schnelle Vorhersagen treffen können. Ein TPU v5e-Pod bietet bis zu 100 Billiarden int8-Vorgänge pro Sekunde oder 100 PetaOps Rechenleistung.
Beschleunigen Sie die KI-Inferenz mit vLLM und MaxDiffusion. vLLM ist eine beliebte Open-Source-Inferenz-Engine, die für einen hohen Durchsatz und eine geringe Latenz bei der Inferenz von Large Language Models (LLMs) entwickelt wurde. vLLM wird von tpu-inference unterstützt und bietet jetzt vLLM TPU für LLM-Inferenz mit hohem Durchsatz und niedriger Latenz. Es vereint JAX und PyTorch, bietet eine breitere Modellabdeckung (Gemma, Llama, Qwen) und erweiterte Funktionen. MaxDiffusion optimiert die Inferenz von Diffusionsmodellen auf Cloud TPUs für eine hohe Leistung.
Cloud TPU v5e ermöglicht leistungsstarke und kostengünstige Inferenz für eine Vielzahl von KI-Arbeitslasten, einschließlich der neuesten LLMs und Gen AI-Modelle. TPU v5e bietet eine bis zu 2,5-mal höhere Durchsatzleistung pro US-Dollar und eine bis zu 1,7-fache Beschleunigung gegenüber Cloud TPU v4. Jeder TPU v5e-Chip bietet bis zu 393 Billionen int8-Vorgänge pro Sekunde, sodass komplexe Modelle schnelle Vorhersagen treffen können. Ein TPU v5e-Pod bietet bis zu 100 Billiarden int8-Vorgänge pro Sekunde oder 100 PetaOps Rechenleistung.
Eine robuste KI-/ML-Plattform berücksichtigt die folgenden Ebenen: (i) Infrastrukturorchestrierung, die GPUs zum Trainieren und Bereitstellen von Arbeitslasten in großem Maßstab unterstützt, (ii) Flexible Einbindung in verteiltes Computing und Datenverarbeitungs-Frameworks und (iii) Unterstützung für mehrere Teams in derselben Infrastruktur, um die Ressourcennutzung zu maximieren.
Kombinieren Sie die Leistungsfähigkeit von Cloud TPUs mit der Flexibilität und Skalierbarkeit von GKE, um Modelle für maschinelles Lernen schneller und einfacher als je zuvor zu erstellen und bereitzustellen. Dank der in GKE verfügbaren Cloud TPUs haben Sie jetzt eine einzige konsistente Betriebsumgebung für alle Arbeitslasten und können damit automatisierte MLOps-Pipelines standardisieren.
Eine robuste KI-/ML-Plattform berücksichtigt die folgenden Ebenen: (i) Infrastrukturorchestrierung, die GPUs zum Trainieren und Bereitstellen von Arbeitslasten in großem Maßstab unterstützt, (ii) Flexible Einbindung in verteiltes Computing und Datenverarbeitungs-Frameworks und (iii) Unterstützung für mehrere Teams in derselben Infrastruktur, um die Ressourcennutzung zu maximieren.
Kombinieren Sie die Leistungsfähigkeit von Cloud TPUs mit der Flexibilität und Skalierbarkeit von GKE, um Modelle für maschinelles Lernen schneller und einfacher als je zuvor zu erstellen und bereitzustellen. Dank der in GKE verfügbaren Cloud TPUs haben Sie jetzt eine einzige konsistente Betriebsumgebung für alle Arbeitslasten und können damit automatisierte MLOps-Pipelines standardisieren.
Kunden, die nach der einfachsten Möglichkeit zur Entwicklung von KI-Modellen suchen, können Cloud TPU v5e mit Vertex AI bereitstellen, einer End-to-End-Plattform zum Erstellen von KI-Modellen auf einer vollständig verwalteten Infrastruktur, die auf Bereitstellung mit niedriger Latenz und Hochleistungstraining ausgelegt ist.
Kunden, die nach der einfachsten Möglichkeit zur Entwicklung von KI-Modellen suchen, können Cloud TPU v5e mit Vertex AI bereitstellen, einer End-to-End-Plattform zum Erstellen von KI-Modellen auf einer vollständig verwalteten Infrastruktur, die auf Bereitstellung mit niedriger Latenz und Hochleistungstraining ausgelegt ist.
Preise
| Cloud TPU-Preise | Alle Cloud TPU-Preise werden pro Chipstunde berechnet | ||
|---|---|---|---|
| Cloud TPU-Version | Kennenlernpreis (in $) | Zusicherung für 1 Jahr (USD) | Zusicherung für 3 Jahre (USD) |
Trillium | Ab 2,7000 $ pro Chipstunde | Ab 1,8900 $ pro Chipstunde | Ab 1,2200 $ pro Chipstunde |
Cloud TPU v5p | Ab 4,2000 $ pro Chipstunde | Ab 2,9400 $ pro Chipstunde | Ab 1,8900 $ pro Chipstunde |
Cloud TPU v5e | Ab 1,2000 $ pro Chipstunde | Ab 0,8400 $ pro Chipstunde | Ab 0,5400 $ pro Chipstunde |
Die Preise für Cloud TPU variieren je nach Produkt und Region.
Cloud TPU-Preise
Alle Cloud TPU-Preise werden pro Chipstunde berechnet
Trillium
Starting at
2,7000 $
pro Chipstunde
Starting at
1,8900 $
pro Chipstunde
Starting at
1,2200 $
pro Chipstunde
Cloud TPU v5p
Starting at
4,2000 $
pro Chipstunde
Starting at
2,9400 $
pro Chipstunde
Starting at
1,8900 $
pro Chipstunde
Cloud TPU v5e
Starting at
1,2000 $
pro Chipstunde
Starting at
0,8400 $
pro Chipstunde
Starting at
0,5400 $
pro Chipstunde
Die Preise für Cloud TPU variieren je nach Produkt und Region.