Trainings-, Inferenz- und Reinforcement-Learning-Arbeitslasten erstellen, optimieren und skalieren, um autonome Reasoning Agents zu unterstützen
Überblick
TPUs sind speziell entwickelte Beschleuniger, die für KI-Arbeitslasten wie Agents, Codegenerierung, Large Language Models, Generierung von Medieninhalten, synthetische Sprache, Vision-Dienste, Empfehlungssysteme und Personalisierungsmodelle optimiert sind. TPUs sind die Grundlage für Gemini und alle Google AI-basierten Anwendungen wie die Google Suche, Google Fotos und Google Maps, die von über einer Milliarde Nutzer verwendet werden.
Der Übergang zu agentischer KI erfordert eine Infrastruktur, die mehrstufige Problemlösung und kontinuierliches bestärkendes Lernen ermöglicht. TPUs durchbrechen die „Speicherwand“ der Inferenz, indem sie riesige KV-Caches vollständig auf dem Silizium hosten und mit TPU 8i erweiterten On-Chip-SRAM nutzen. In Kombination mit unserer SparseCore-Engine zur Auslagerung von Kommunikationsaufgaben reduziert diese Architektur die Leerlaufzeit der Kerne. Das Ergebnis ist eine vorhersehbare Leistung mit geringer Latenz, die komplexe Reasoning Loops ermöglicht.
Verkürzen Sie die Trainingszeiten für Frontier-Modelle und beschleunigen Sie so die Bereitstellung. Cloud TPUs maximieren den Durchsatz und sorgen dafür, dass fast jeder Rechenzyklus für aktives Lernen verwendet wird. Dies wird durch eine Hochgeschwindigkeits-Inter-Chip-Verbindung, optische Schaltung und das Virgo-Netzwerk unterstützt, sodass die Beschleuniger als hochzuverlässiges, einheitliches System fungieren.
TPUs sind so konzipiert, dass sie Wert und Stromverbrauch verbessern, indem sie sich auf die Rechenanforderungen von KI konzentrieren und den Betriebsaufwand eliminieren, der bei Mehrzweckarchitekturen auftritt. Das integrierte Energiemanagement passt sich dynamisch an das Anfragevolumen in Echtzeit an und bietet eine hohe Leistung pro Watt. So lassen sich komplexe KI-Arbeitslasten nachhaltig unterstützen.
Auf einem offenen Ökosystem mit vertrauten Bibliotheken und Tools aufbauen. Cloud TPUs bieten native, leistungsstarke Unterstützung für PyTorch und JAX und unterstützen die vLLM-Engine für schnelle Inferenz. Mit der Google Kubernetes Engine (GKE) können Sie diese Deployments zuverlässig in globalen Clustern verwalten und skalieren.
Cloud TPU-Versionen
| Cloud TPU-Version | Beschreibung | Verfügbarkeit |
|---|---|---|
TPU 8i | TPU 8i ist für Post-Training und Inferenz optimiert und bietet eine 80% höhere Leistung pro Dollar als frühere Generationen für Inferenz mit geringer Latenz für große MoE-Modelle. | Demnächst |
TPU 8t | Die TPU 8t wurde für umfangreiches Vortraining und Arbeitslasten mit vielen Einbettungen in einer Größenordnung von 9.600 Chips in einem einzelnen Superpod entwickelt und bietet eine 2,7-mal höhere Leistung pro Dollar als Ironwood für umfangreiches Training. | Demnächst |
Ironwood | Energieeffiziente TPU der 7. Generation für umfangreiches Training, Reasoning und Inferenz. Jeder Pod ist mit 9.216 flüssigkeitsgekühlten Chips ausgestattet und bietet 42,5 Exaflops und eine viermal höhere Leistung pro Chip als Trillium. | Ironwood ist in Nordamerika (Region Central) und Europa (Region West) allgemein verfügbar. |
Trillium | TPU der 6. Generation mit verbesserter Energieeffizienz und maximaler Rechenleistung für Training und Inferenz. Sie ist 67% energieeffizienter und bietet eine 4,7-mal höhere maximale Rechenleistung pro Chip als die vorherige Generation der TPU v5e. | Trillium ist in Nordamerika (Region „US East“), Europa (Region „West“) und Asien (Region „Northeast“) allgemein verfügbar. |
Weitere Informationen zu Cloud TPU-Versionen
TPU 8i
TPU 8i ist für Post-Training und Inferenz optimiert und bietet eine 80% höhere Leistung pro Dollar als frühere Generationen für Inferenz mit geringer Latenz für große MoE-Modelle.
Demnächst
TPU 8t
Die TPU 8t wurde für umfangreiches Vortraining und Arbeitslasten mit vielen Einbettungen in einer Größenordnung von 9.600 Chips in einem einzelnen Superpod entwickelt und bietet eine 2,7-mal höhere Leistung pro Dollar als Ironwood für umfangreiches Training.
Demnächst
Ironwood
Energieeffiziente TPU der 7. Generation für umfangreiches Training, Reasoning und Inferenz. Jeder Pod ist mit 9.216 flüssigkeitsgekühlten Chips ausgestattet und bietet 42,5 Exaflops und eine viermal höhere Leistung pro Chip als Trillium.
Ironwood ist in Nordamerika (Region Central) und Europa (Region West) allgemein verfügbar.
Trillium
TPU der 6. Generation mit verbesserter Energieeffizienz und maximaler Rechenleistung für Training und Inferenz. Sie ist 67% energieeffizienter und bietet eine 4,7-mal höhere maximale Rechenleistung pro Chip als die vorherige Generation der TPU v5e.
Trillium ist in Nordamerika (Region „US East“), Europa (Region „West“) und Asien (Region „Northeast“) allgemein verfügbar.
Weitere Informationen zu Cloud TPU-Versionen
Funktionsweise
Erhalten Sie einen Einblick in die Magie der Google Cloud TPUs und erhalten Sie einen seltenen Einblick in die Rechenzentren, in denen alles stattfindet . Kunden nutzen Cloud TPUs, um einige der größten KI-Arbeitslasten auszuführen, und diese Kapazität basiert auf weit mehr als nur einem Chip. In diesem Video werfen wir einen Blick auf die Komponenten des TPU-Systems, darunter das Netzwerk von Rechenzentren, optische Schalter, Wasserkühlsysteme, biometrische Sicherheitsprüfung und mehr.
Verkürzen Sie die Vortrainingszeit für umfangreiche Foundation Models. Die TPU 8t bietet hohe Rechenleistung in einem einzelnen Pod und lässt sich über das Virgo-Netzwerk skalieren. In Kombination mit schnellem Speicherzugriff und NUMA-Isolation durch Axion erreicht die Architektur einen hohen Durchsatz. So werden Rechenzyklen für die aktive Modellentwicklung genutzt und nicht für Wartezeiten während der Datenübertragung oder für Hardware-Resets.
Verkürzen Sie die Vortrainingszeit für umfangreiche Foundation Models. Die TPU 8t bietet hohe Rechenleistung in einem einzelnen Pod und lässt sich über das Virgo-Netzwerk skalieren. In Kombination mit schnellem Speicherzugriff und NUMA-Isolation durch Axion erreicht die Architektur einen hohen Durchsatz. So werden Rechenzyklen für die aktive Modellentwicklung genutzt und nicht für Wartezeiten während der Datenübertragung oder für Hardware-Resets.
Integrieren Sie Basismodelle durch intensive Workflows nach dem Training in intelligente Agenten. Das TPU-System der 8. Generation verarbeitet kontinuierlich Versuche zum bestärkenden Lernen und belohnt die besten Denkpfade ohne die bei früheren Generationen üblichen Zyklusverzögerungen. So können Sie Weltmodelle effizient abstimmen, sodass Agenten ihre Schlussfolgerungen in simulierten Umgebungen verfeinern können, bevor sie in der realen Welt ausgeführt werden.
Integrieren Sie Basismodelle durch intensive Workflows nach dem Training in intelligente Agenten. Das TPU-System der 8. Generation verarbeitet kontinuierlich Versuche zum bestärkenden Lernen und belohnt die besten Denkpfade ohne die bei früheren Generationen üblichen Zyklusverzögerungen. So können Sie Weltmodelle effizient abstimmen, sodass Agenten ihre Schlussfolgerungen in simulierten Umgebungen verfeinern können, bevor sie in der realen Welt ausgeführt werden.
Die Speichergrenze für Inferenz durchbrechen. Die TPU 8i erweitert den On-Chip-SRAM und den Arbeitsspeicher mit hoher Bandbreite und hostet KV-Caches mit hoher Kapazität vollständig auf Silizium. Durch die Verwendung der SparseCore-Collectives Acceleration Engine (SC-CAE) zum Auslagern globaler Kommunikationsaufgaben reduziert diese Architektur die On-Chip-Latenz erheblich und gibt die Hauptrechenkerne für die reine, latenzarme Token-Generierung frei.
Die Speichergrenze für Inferenz durchbrechen. Die TPU 8i erweitert den On-Chip-SRAM und den Arbeitsspeicher mit hoher Bandbreite und hostet KV-Caches mit hoher Kapazität vollständig auf Silizium. Durch die Verwendung der SparseCore-Collectives Acceleration Engine (SC-CAE) zum Auslagern globaler Kommunikationsaufgaben reduziert diese Architektur die On-Chip-Latenz erheblich und gibt die Hauptrechenkerne für die reine, latenzarme Token-Generierung frei.
Anwendungsszenario
Autonome Reasoning Agents
TPUs bieten die Speicherbandbreite und Inferenz mit niedriger Latenz, die für kontinuierliche, mehrstufige Problemlösungsschleifen für Echtzeit-Coding-Assistenten, autonomen Kundenservice und Security Operations erforderlich sind.
Foundation Models und multimodale generative KI
TPUs bieten kontinuierliche Rechenleistung mit hohem Durchsatz und können effizient umfangreiche Foundation Models für Text-, Bild-, Audio- und Videomodalitäten erstellen und bereitstellen.
Präzisionswissenschaft und Gesundheitswesen
TPUs verarbeiten komplexe, matrixlastige Mathematik, um rechenintensive Simulationen für die Strukturbiologie, Genomsequenzierung und Arzneimittelentwicklung zu beschleunigen.
Physische KI
Erstellen Sie physische Agents, die mit der realen Welt interagieren und sich an sie anpassen. Mit synthetischen und realen Daten können Sie Roboter, autonome Agenten und Industriemaschinen schneller und effizienter simulieren und trainieren.