Artikel lesen: Inside the 8th-generation TPU: An architecture deep dive

Tensor Processing Units (TPUs)

Entwickelt für KI der nächsten Generation

Trainings-, Inferenz- und Reinforcement-Learning-Arbeitslasten erstellen, optimieren und skalieren, um autonome Reasoning Agents zu unterstützen

Überblick

Ein Jahrzehnt Tensor Processing Units (TPUs)

TPUs sind speziell entwickelte Beschleuniger, die für KI-Arbeitslasten wie Agents, Codegenerierung, Large Language Models, Generierung von Medieninhalten, synthetische Sprache, Vision-Dienste, Empfehlungssysteme und Personalisierungsmodelle optimiert sind. TPUs sind die Grundlage für Gemini und alle Google AI-basierten Anwendungen wie die Google Suche, Google Fotos und Google Maps, die von über einer Milliarde Nutzer verwendet werden.

Speziell für agentische KI entwickelt

Der Übergang zu agentischer KI erfordert eine Infrastruktur, die mehrstufige Problemlösung und kontinuierliches bestärkendes Lernen ermöglicht. TPUs durchbrechen die „Speicherwand“ der Inferenz, indem sie riesige KV-Caches vollständig auf dem Silizium hosten und mit TPU 8i erweiterten On-Chip-SRAM nutzen. In Kombination mit unserer SparseCore-Engine zur Auslagerung von Kommunikationsaufgaben reduziert diese Architektur die Leerlaufzeit der Kerne. Das Ergebnis ist eine vorhersehbare Leistung mit geringer Latenz, die komplexe Reasoning Loops ermöglicht.

Leistung ohne Kompromisse

Verkürzen Sie die Trainingszeiten für Frontier-Modelle und beschleunigen Sie so die Bereitstellung. Cloud TPUs maximieren den Durchsatz und sorgen dafür, dass fast jeder Rechenzyklus für aktives Lernen verwendet wird. Dies wird durch eine Hochgeschwindigkeits-Inter-Chip-Verbindung, optische Schaltung und das Virgo-Netzwerk unterstützt, sodass die Beschleuniger als hochzuverlässiges, einheitliches System fungieren.

Nachhaltige Wirtschaft im großen Maßstab

TPUs sind so konzipiert, dass sie Wert und Stromverbrauch verbessern, indem sie sich auf die Rechenanforderungen von KI konzentrieren und den Betriebsaufwand eliminieren, der bei Mehrzweckarchitekturen auftritt. Das integrierte Energiemanagement passt sich dynamisch an das Anfragevolumen in Echtzeit an und bietet eine hohe Leistung pro Watt. So lassen sich komplexe KI-Arbeitslasten nachhaltig unterstützen.

Offene, flexible und zuverlässige Abläufe

Auf einem offenen Ökosystem mit vertrauten Bibliotheken und Tools aufbauen. Cloud TPUs bieten native, leistungsstarke Unterstützung für PyTorch und JAX und unterstützen die vLLM-Engine für schnelle Inferenz. Mit der Google Kubernetes Engine (GKE) können Sie diese Deployments zuverlässig in globalen Clustern verwalten und skalieren.

Cloud TPU-Versionen

Cloud TPU-Version	Beschreibung	Verfügbarkeit
TPU 8i	TPU 8i ist für Post-Training und Inferenz optimiert und bietet eine 80% höhere Leistung pro Dollar als frühere Generationen für Inferenz mit geringer Latenz für große MoE-Modelle.	Demnächst
TPU 8t	Die TPU 8t wurde für umfangreiches Vortraining und Arbeitslasten mit vielen Einbettungen in einer Größenordnung von 9.600 Chips in einem einzelnen Superpod entwickelt und bietet eine 2,7-mal höhere Leistung pro Dollar als Ironwood für umfangreiches Training.	Demnächst
Ironwood	Energieeffiziente TPU der 7. Generation für umfangreiches Training, Reasoning und Inferenz. Jeder Pod ist mit 9.216 flüssigkeitsgekühlten Chips ausgestattet und bietet 42,5 Exaflops und eine viermal höhere Leistung pro Chip als Trillium.	Ironwood ist in Nordamerika (Region Central) und Europa (Region West) allgemein verfügbar.
Trillium	TPU der 6. Generation mit verbesserter Energieeffizienz und maximaler Rechenleistung für Training und Inferenz. Sie ist 67% energieeffizienter und bietet eine 4,7-mal höhere maximale Rechenleistung pro Chip als die vorherige Generation der TPU v5e.	Trillium ist in Nordamerika (Region „US East“), Europa (Region „West“) und Asien (Region „Northeast“) allgemein verfügbar.

Weitere Informationen zu Cloud TPU-Versionen

TPU 8i

Beschreibung

TPU 8i ist für Post-Training und Inferenz optimiert und bietet eine 80% höhere Leistung pro Dollar als frühere Generationen für Inferenz mit geringer Latenz für große MoE-Modelle.

Verfügbarkeit

Demnächst

TPU 8t

Beschreibung

Die TPU 8t wurde für umfangreiches Vortraining und Arbeitslasten mit vielen Einbettungen in einer Größenordnung von 9.600 Chips in einem einzelnen Superpod entwickelt und bietet eine 2,7-mal höhere Leistung pro Dollar als Ironwood für umfangreiches Training.

Verfügbarkeit

Demnächst

Ironwood

Beschreibung

Energieeffiziente TPU der 7. Generation für umfangreiches Training, Reasoning und Inferenz. Jeder Pod ist mit 9.216 flüssigkeitsgekühlten Chips ausgestattet und bietet 42,5 Exaflops und eine viermal höhere Leistung pro Chip als Trillium.

Verfügbarkeit

Ironwood ist in Nordamerika (Region Central) und Europa (Region West) allgemein verfügbar.

Trillium

Beschreibung

TPU der 6. Generation mit verbesserter Energieeffizienz und maximaler Rechenleistung für Training und Inferenz. Sie ist 67% energieeffizienter und bietet eine 4,7-mal höhere maximale Rechenleistung pro Chip als die vorherige Generation der TPU v5e.

Verfügbarkeit

Trillium ist in Nordamerika (Region „US East“), Europa (Region „West“) und Asien (Region „Northeast“) allgemein verfügbar.

Weitere Informationen zu Cloud TPU-Versionen

Funktionsweise

Erhalten Sie einen Einblick in die Magie der Google Cloud TPUs und erhalten Sie einen seltenen Einblick in die Rechenzentren, in denen alles stattfindet . Kunden nutzen Cloud TPUs, um einige der größten KI-Arbeitslasten auszuführen, und diese Kapazität basiert auf weit mehr als nur einem Chip. In diesem Video werfen wir einen Blick auf die Komponenten des TPU-Systems, darunter das Netzwerk von Rechenzentren, optische Schalter, Wasserkühlsysteme, biometrische Sicherheitsprüfung und mehr.

Gängige Einsatzmöglichkeiten

Große KI-Vortrainingsarbeitslasten ausführen

Markteinführung von Frontier-Modellen beschleunigen

Verkürzen Sie die Vortrainingszeit für umfangreiche Foundation Models. Die TPU 8t bietet hohe Rechenleistung in einem einzelnen Pod und lässt sich über das Virgo-Netzwerk skalieren. In Kombination mit schnellem Speicherzugriff und NUMA-Isolation durch Axion erreicht die Architektur einen hohen Durchsatz. So werden Rechenzyklen für die aktive Modellentwicklung genutzt und nicht für Wartezeiten während der Datenübertragung oder für Hardware-Resets.

Weitere Ressourcen

Markteinführung von Frontier-Modellen beschleunigen

Verkürzen Sie die Vortrainingszeit für umfangreiche Foundation Models. Die TPU 8t bietet hohe Rechenleistung in einem einzelnen Pod und lässt sich über das Virgo-Netzwerk skalieren. In Kombination mit schnellem Speicherzugriff und NUMA-Isolation durch Axion erreicht die Architektur einen hohen Durchsatz. So werden Rechenzyklen für die aktive Modellentwicklung genutzt und nicht für Wartezeiten während der Datenübertragung oder für Hardware-Resets.

Effizientes Training und bestärkendes Lernen

Arbeitslasten für bestärkendes Lernen effizient skalieren

Integrieren Sie Basismodelle durch intensive Workflows nach dem Training in intelligente Agenten. Das TPU-System der 8. Generation verarbeitet kontinuierlich Versuche zum bestärkenden Lernen und belohnt die besten Denkpfade ohne die bei früheren Generationen üblichen Zyklusverzögerungen. So können Sie Weltmodelle effizient abstimmen, sodass Agenten ihre Schlussfolgerungen in simulierten Umgebungen verfeinern können, bevor sie in der realen Welt ausgeführt werden.

Weitere Ressourcen

Arbeitslasten für bestärkendes Lernen effizient skalieren

Integrieren Sie Basismodelle durch intensive Workflows nach dem Training in intelligente Agenten. Das TPU-System der 8. Generation verarbeitet kontinuierlich Versuche zum bestärkenden Lernen und belohnt die besten Denkpfade ohne die bei früheren Generationen üblichen Zyklusverzögerungen. So können Sie Weltmodelle effizient abstimmen, sodass Agenten ihre Schlussfolgerungen in simulierten Umgebungen verfeinern können, bevor sie in der realen Welt ausgeführt werden.

KI-Inferenzarbeitslasten mit niedriger Latenz in großem Umfang

Hochleistungsfähige, kosteneffiziente Inferenz

Die Speichergrenze für Inferenz durchbrechen. Die TPU 8i erweitert den On-Chip-SRAM und den Arbeitsspeicher mit hoher Bandbreite und hostet KV-Caches mit hoher Kapazität vollständig auf Silizium. Durch die Verwendung der SparseCore-Collectives Acceleration Engine (SC-CAE) zum Auslagern globaler Kommunikationsaufgaben reduziert diese Architektur die On-Chip-Latenz erheblich und gibt die Hauptrechenkerne für die reine, latenzarme Token-Generierung frei.

Weitere Ressourcen

Hochleistungsfähige, kosteneffiziente Inferenz

Die Speichergrenze für Inferenz durchbrechen. Die TPU 8i erweitert den On-Chip-SRAM und den Arbeitsspeicher mit hoher Bandbreite und hostet KV-Caches mit hoher Kapazität vollständig auf Silizium. Durch die Verwendung der SparseCore-Collectives Acceleration Engine (SC-CAE) zum Auslagern globaler Kommunikationsaufgaben reduziert diese Architektur die On-Chip-Latenz erheblich und gibt die Hauptrechenkerne für die reine, latenzarme Token-Generierung frei.

Proof of Concept starten

Cloud TPUs kostenlos testen

Kurze Einführung in Cloud TPUs

PyTorch auf TPUs ausführen

JAX auf TPUs ausführen

Bereitstellung mit vLLM auf TPUs

Anwendungsszenario

Autonome Reasoning Agents

TPUs bieten die Speicherbandbreite und Inferenz mit niedriger Latenz, die für kontinuierliche, mehrstufige Problemlösungsschleifen für Echtzeit-Coding-Assistenten, autonomen Kundenservice und Security Operations erforderlich sind.

Foundation Models und multimodale generative KI

⁠TPUs bieten kontinuierliche Rechenleistung mit hohem Durchsatz und können effizient umfangreiche Foundation Models für Text-, Bild-, Audio- und Videomodalitäten erstellen und bereitstellen.

Präzisionswissenschaft und Gesundheitswesen

TPUs verarbeiten komplexe, matrixlastige Mathematik, um rechenintensive Simulationen für die Strukturbiologie, Genomsequenzierung und Arzneimittelentwicklung zu beschleunigen.

Physische KI

Erstellen Sie physische Agents, die mit der realen Welt interagieren und sich an sie anpassen. Mit synthetischen und realen Daten können Sie Roboter, autonome Agenten und Industriemaschinen schneller und effizienter simulieren und trainieren.

Tensor Processing Units (TPUs)

Entwickelt für KI der nächsten Generation

Produkthighlights

Ein Jahrzehnt Tensor Processing Units (TPUs)

Speziell für agentische KI entwickelt

Leistung ohne Kompromisse

Nachhaltige Wirtschaft im großen Maßstab

Offene, flexible und zuverlässige Abläufe

Große KI-Vortrainingsarbeitslasten ausführen

Markteinführung von Frontier-Modellen beschleunigen

Weitere Ressourcen

Markteinführung von Frontier-Modellen beschleunigen

Effizientes Training und bestärkendes Lernen

Arbeitslasten für bestärkendes Lernen effizient skalieren

Weitere Ressourcen

Arbeitslasten für bestärkendes Lernen effizient skalieren

KI-Inferenzarbeitslasten mit niedriger Latenz in großem Umfang

Hochleistungsfähige, kosteneffiziente Inferenz

Weitere Ressourcen

Hochleistungsfähige, kosteneffiziente Inferenz

Proof of Concept starten

Cloud TPUs kostenlos testen

Kurze Einführung in Cloud TPUs

PyTorch auf TPUs ausführen

JAX auf TPUs ausführen

Bereitstellung mit vLLM auf TPUs

Ähnliche Inhalte