KI-Hypercomputer

Ironwood-TPUs und neue Axion-basierte VMs – die Zukunft der Inferenz

Trainieren, abstimmen und bereitstellen auf einer AI Supercomputer-Architektur

AI Hypercomputer ist das integrierte Supercomputing-System, das allen KI-Arbeitslasten in Google Cloud zugrunde liegt. Es besteht aus Hardware, Software und Verbrauchsmodellen, die die KI-Bereitstellung vereinfachen, die Effizienz auf Systemebene verbessern und die Kosten optimieren.

Leitfaden: Unsere vier wichtigsten Anwendungsfälle, Referenzarchitekturen und Anleitungen für AI Hypercomputer

Versionshinweise

Überblick

KI-optimierte Hardware

Wählen Sie unter Computing- (einschließlich KI-Beschleuniger), Speicher- und Netzwerkoptionen, die für spezifische Ziele auf Arbeitslastebene optimiert sind (höherer Durchsatz, niedrigere Latenz, schnellere Ergebnisse oder niedrigere Gesamtbetriebskosten). Weitere Informationen zu Cloud TPUs, Cloud GPUs und den neuesten Entwicklungen in den Bereichen Speicher und Netzwerk.

Ankündigung: Anthropic will Google Cloud-TPUs und -Dienste verstärkt nutzen

Anthropic kündigte die Nutzung von bis zu 1 Million TPUs für das Training und die Bereitstellung von Claude-Modellen im Wert von mehreren zehn Milliarden US-Dollar an. Anthropic hat sich aufgrund des Preis-Leistungs-Verhältnisses und der Effizienz für TPUs entschieden.

Pressemitteilung lesen

Führende Software, offene Frameworks

Dank branchenführender, in offene Frameworks, Bibliotheken und Compiler eingebundener Software können Sie Ihre Hardware optimal nutzen und die KI-Entwicklung, ‑Einbindung und ‑Verwaltung effizienter gestalten.

Unterstützung für PyTorch, JAX, Keras, vLLM, Megatron-LM, NeMo Megatron, MaxText, MaxDiffusion und viele weitere.
Die enge Einbindung mit dem XLA-Compiler ermöglicht die Interoperabilität zwischen verschiedenen Beschleunigern. Mit Pathways on Cloud können Sie die verteilte Laufzeitumgebung verwenden, die auch die internen groß angelegten Trainings- und Inferenzinfrastrukturen von Google unterstützt.
All das lässt sich in der Umgebung Ihrer Wahl bereitstellen, ob Google Kubernetes Engine, Cluster Director oder Google Compute Engine.

Video: Moloco, LG und Shopify berichten

Erfahren Sie, wie sie mit den KI-Lösungen von Google Cloud Innovationen vorantreiben und ihre Unternehmen transformieren.

On demand ansehen

Flexible Nutzungsmodelle

Flexible Verbrauchsoptionen ermöglichen es Kunden, feste Kosten mit Rabatten für zugesicherte Nutzung oder dynamischen On-Demand-Modellen zu wählen, um ihre geschäftlichen Anforderungen zu erfüllen.Dank dem Dynamic Workload Scheduler und Spot-VMs können Sie die benötigte Kapazität ohne Überhang erhalten.Außerdem helfen die Tools zur Kostenoptimierung von Google Cloud bei der Automatisierung der Ressourcennutzung, um manuelle Aufgaben zu reduzieren, die von Entwicklern ausgeführt werden müssten.

Aktualisierungen am Dynamic Workload Scheduler

In diesem Blog erfahren Sie mehr über den Dynamic Workload Scheduler und andere Neuigkeiten zum AI Hypercomputer.

Blog lesen

Funktionsweise

In dieser Keynote vom AI Infra Summit 2025 erläutert eine Führungskraft von Google Cloud, wie sich die Grundlagen der KI weiter entwickeln und wie AI Hypercomputer für Inferenz genutzt werden können. Außerdem werden aktuelle Best Practices für Technologien vorgestellt, die Sie sofort nutzen können.

Gängige Einsatzmöglichkeiten

Modelle kosteneffizient im großen Maßstab bereitstellen

Preis-Leistungs-Verhältnis und Zuverlässigkeit für Inferenz-Arbeitslasten maximieren

Die Inferenz wird schnell vielfältiger und komplexer und entwickelt sich in drei Hauptbereichen weiter:

Erstens: Die Art und Weise, wie wir mit KI interagieren, verändert sich. Gespräche haben jetzt einen viel längeren und vielfältigeren Kontext.
Zweitens: Durch ausgeklügelte Schlussfolgerungen und mehrstufige Inferenz werden Mixture-of-Experts-Modelle (MoE) immer beliebter. Das verändert die Art und Weise, wie Speicher und Rechenleistung von der Eingabe bis zur Ausgabe skaliert werden.
Außerdem ist klar, dass es nicht nur um die Anzahl der Tokens pro Dollar geht, sondern um die Nützlichkeit der Antwort. Verfügt das Modell über das erforderliche Fachwissen? Wurde eine wichtige Geschäftsfrage richtig beantwortet? Deshalb sind wir der Meinung, dass Kunden bessere Messwerte benötigen, die sich auf die Gesamtkosten des Systembetriebs konzentrieren und nicht auf den Preis der Prozessoren.

Anleitungen

Preis-Leistungs-Verhältnis und Zuverlässigkeit für Inferenz-Arbeitslasten maximieren

Die Inferenz wird schnell vielfältiger und komplexer und entwickelt sich in drei Hauptbereichen weiter:

Erstens: Die Art und Weise, wie wir mit KI interagieren, verändert sich. Gespräche haben jetzt einen viel längeren und vielfältigeren Kontext.
Zweitens: Durch ausgeklügelte Schlussfolgerungen und mehrstufige Inferenz werden Mixture-of-Experts-Modelle (MoE) immer beliebter. Das verändert die Art und Weise, wie Speicher und Rechenleistung von der Eingabe bis zur Ausgabe skaliert werden.
Außerdem ist klar, dass es nicht nur um die Anzahl der Tokens pro Dollar geht, sondern um die Nützlichkeit der Antwort. Verfügt das Modell über das erforderliche Fachwissen? Wurde eine wichtige Geschäftsfrage richtig beantwortet? Deshalb sind wir der Meinung, dass Kunden bessere Messwerte benötigen, die sich auf die Gesamtkosten des Systembetriebs konzentrieren und nicht auf den Preis der Prozessoren.

Weitere Ressourcen

Ressourcen zur KI-Inferenz ansehen

Was ist KI-Inferenz? Unser umfassender Leitfaden zu Typen, Vergleichen und Anwendungsfällen
Best-Practice-Vorgaben für die Inferenz mit GKE Inference Quickstart ausführen
Kurs zu KI-Inferenz in Cloud Run
Video: Das Geheimnis kosteneffizienter KI-Inferenz
KI-Inferenz-Arbeitslasten beschleunigen

Kundenbeispiele

KI macht Sportfans zu Trikotdesignern

PUMA hat sich für eine integrierte KI-Infrastruktur (AI Hypercomputer) von Google Cloud entschieden. So kann das Unternehmen Gemini für Nutzerprompts und Dynamic Workload Scheduler für die dynamische Skalierung von Inferenz auf GPUs nutzen, was Kosten und Generierungszeit erheblich reduziert.

Wirkung:

Die Zeit für die Erstellung von KI-Kits wurde von 2–5 Minuten auf nur 30 Sekunden reduziert. So wurde die Plattform zu einer schnellen, interaktiven Umgebung, die Nutzer begeistert.
In nur 10 Tagen erstellten Fans 180.000 Trikots und gaben 1,7 Millionen Bewertungen ab.
Das Projekt eröffnete PUMA eine neue Möglichkeit, mit seiner Community in Kontakt zu treten. Das Unternehmen ging über eine einfache Beziehung zwischen Marke und Verbraucher hinaus und verwandelte Fans erfolgreich in aktive Co-Creatoren. So erhielt das Unternehmen direkte Einblicke in die kreativen Wünsche seiner leidenschaftlichsten Kunden.

Neue Möglichkeiten: Mit AI Creator können PUMA-Fans echte Trikots entwerfen

Umfangreiches KI-Training und Vortraining ausführen

Leistungsstarkes, skalierbares und effizientes KI-Training

Trainingsarbeitslasten müssen als hochgradig synchronisierte Jobs auf Tausenden von Knoten in eng gekoppelten Clustern ausgeführt werden. Ein einzelner beeinträchtigter Knoten kann einen gesamten Job stören und die Markteinführung verzögern. Folgende Schritte sind erforderlich:

Der Cluster muss schnell eingerichtet und für die jeweilige Arbeitslast optimiert werden
Ausfälle müssen vorhergesagt und schnell behoben werden
Und auch bei Ausfällen müssen Arbeitslasten weiter ausgeführt werden

Wir möchten es Kunden so einfach wie möglich machen, Trainings-Workloads in Google Cloud bereitzustellen und zu skalieren.