Logo: AI Hypercomputer

Trainieren, abstimmen und bereitstellen auf einer AI Supercomputer-Architektur

AI Hypercomputer ist das integrierte Supercomputing-System, das allen KI-Arbeitslasten in Google Cloud zugrunde liegt. Es besteht aus Hardware, Software und Verbrauchsmodellen, die die KI-Bereitstellung vereinfachen, die Effizienz auf Systemebene verbessern und die Kosten optimieren.

Überblick

KI-optimierte Hardware

Wählen Sie aus Computing-, Speicher- und Netzwerkoptionen, die für spezifische Ziele auf Arbeitslastebene optimiert sind – ob höherer Durchsatz, niedrigere Latenz, schnellere Ergebnisse oder niedrigere Gesamtbetriebskosten. Weitere Informationen zu Google Cloud TPU, Google Cloud GPU und den neuesten Entwicklungen in den Bereichen Speicher und Netzwerk.

Führende Software, offene Frameworks

Dank branchenführender, in offene Frameworks, Bibliotheken und Compiler eingebundener Software können Sie Ihre Hardware optimal nutzen und die KI-Entwicklung, ‑Einbindung und ‑Verwaltung effizienter gestalten.

  • Unterstützung für PyTorch, JAX, Keras, vLLM, Megatron-LM, NeMo Megatron, MaxText, MaxDiffusion und viele weitere.
  • Die enge Einbindung mit dem XLA-Compiler ermöglicht die Interoperabilität zwischen verschiedenen Beschleunigern. Mit Pathways on Cloud können Sie die verteilte Laufzeitumgebung verwenden, die auch die internen groß angelegten Trainings- und Inferenzinfrastrukturen von Google unterstützt.
  • All das lässt sich in der Umgebung Ihrer Wahl bereitstellen, ob Google Kubernetes Engine, Cluster Director oder Google Compute Engine.

Flexible Nutzungsmodelle

Flexible Verbrauchsoptionen ermöglichen es Kunden, feste Kosten mit Rabatten für zugesicherte Nutzung oder dynamischen On-Demand-Modellen zu wählen, um ihre geschäftlichen Anforderungen zu erfüllen.Dank dem Dynamic Workload Scheduler und Spot-VMs können Sie die benötigte Kapazität ohne Überhang erhalten.Außerdem helfen die Tools zur Kostenoptimierung von Google Cloud bei der Automatisierung der Ressourcennutzung, um manuelle Aufgaben zu reduzieren, die von Entwicklern ausgeführt werden müssten.

Funktionsweise

Google ist mit der Erfindung von Technologien wie TensorFlow ein führender Anbieter im Bereich künstliche Intelligenz. Wussten Sie, dass Sie die Technologie von Google für Ihre eigenen Projekte nutzen können? Erfahren Sie mehr über die Innovationsgeschichte von Google im Bereich der KI-Infrastruktur und wie Sie diese für Ihre Arbeitslasten nutzen können.

Diagramm der Google Cloud AI-Hypercomputer-Architektur neben dem Foto von Google Cloud-Produktmanagerin Chelsie

Gängige Einsatzmöglichkeiten

Umfangreiches KI-Training und Vortraining ausführen

Leistungsstarkes, skalierbares und effizientes KI-Training

Trainingsarbeitslasten müssen als hochgradig synchronisierte Jobs auf Tausenden von Knoten in eng gekoppelten Clustern ausgeführt werden. Ein einzelner beeinträchtigter Knoten kann einen gesamten Job stören und die Markteinführung verzögern. Folgende Schritte sind erforderlich:

  • Der Cluster muss schnell eingerichtet und für die jeweilige Arbeitslast optimiert werden
  • Ausfälle müssen vorhergesagt und schnell behoben werden
  • Und auch bei Ausfällen müssen Arbeitslasten weiter ausgeführt werden

Wir möchten es Kunden so einfach wie möglich machen, Trainings-Workloads in Google Cloud bereitzustellen und zu skalieren.

    Leistungsstarkes, skalierbares und effizientes KI-Training

    Trainingsarbeitslasten müssen als hochgradig synchronisierte Jobs auf Tausenden von Knoten in eng gekoppelten Clustern ausgeführt werden. Ein einzelner beeinträchtigter Knoten kann einen gesamten Job stören und die Markteinführung verzögern. Folgende Schritte sind erforderlich:

    • Der Cluster muss schnell eingerichtet und für die jeweilige Arbeitslast optimiert werden
    • Ausfälle müssen vorhergesagt und schnell behoben werden
    • Und auch bei Ausfällen müssen Arbeitslasten weiter ausgeführt werden

    Wir möchten es Kunden so einfach wie möglich machen, Trainings-Workloads in Google Cloud bereitzustellen und zu skalieren.

      Leistungsstarkes, skalierbares und effizientes KI-Training

      Wenn Sie einen KI-Cluster erstellen möchten, sollten Sie sich eines unserer Tutorials ansehen:

      • Slurm-Cluster mit GPUs (A4-VMs) und Cluster Toolkit erstellen
      • GKE-Cluster mit Cluster Director for GKE oder Cluster Toolkit erstellen

      Character AI nutzt Google Cloud, um hochzuskalieren

      „Wir benötigen GPUs, um Antworten auf Nutzernachrichten zu generieren. Und je mehr Nutzer unsere Plattform hat, desto mehr GPUs benötigen wir, um unsere Dienste zu erbringen. In Google Cloud können wir experimentieren, um die richtige Plattform für eine bestimmte Arbeitslast zu finden. Es ist toll, die Flexibilität zu haben, die Lösungen auszuwählen, die am Besten sind.“ Myle Ott, Gründeringenieur, Character.AI

      KI-Anwendungen bereitstellen und orchestrieren

      Mit führender KI-Orchestrierungssoftware und offenen Frameworks KI-basierte Lösungen bereitstellen

      Google Cloud bietet Images mit gängigen Betriebssystemen, Frameworks, Bibliotheken und Treibern. AI Hypercomputer optimiert diese vorkonfigurierten Images, um Ihre KI-Arbeitslasten zu unterstützen.

      • KI- und ML-Frameworks und ‑Bibliotheken: Mit Deep Learning Software Layer (DLSL)-Docker-Images können Sie ML-Modelle wie NeMO und MaxText in einem Google Kubernetes Engine (GKE)-Cluster ausführen.
      • Clusterbereitstellung und KI-Orchestrierung: Sie können Ihre KI-Arbeitslasten in GKE-Clustern, Slurm-Clustern oder Compute Engine-Instanzen bereitstellen. Weitere Informationen finden Sie unter VMs und Cluster erstellen – Übersicht.

      Mit führender KI-Orchestrierungssoftware und offenen Frameworks KI-basierte Lösungen bereitstellen

      Google Cloud bietet Images mit gängigen Betriebssystemen, Frameworks, Bibliotheken und Treibern. AI Hypercomputer optimiert diese vorkonfigurierten Images, um Ihre KI-Arbeitslasten zu unterstützen.

      • KI- und ML-Frameworks und ‑Bibliotheken: Mit Deep Learning Software Layer (DLSL)-Docker-Images können Sie ML-Modelle wie NeMO und MaxText in einem Google Kubernetes Engine (GKE)-Cluster ausführen.
      • Clusterbereitstellung und KI-Orchestrierung: Sie können Ihre KI-Arbeitslasten in GKE-Clustern, Slurm-Clustern oder Compute Engine-Instanzen bereitstellen. Weitere Informationen finden Sie unter VMs und Cluster erstellen – Übersicht.

      Software-Ressourcen ansehen

      • Pathways on Cloud ist ein System, mit dem sich umfangreiche, auf mehreren Aufgaben basierende und spärlich aktivierte Machine-Learning-Systeme erstellen lassen.
      • Mit unseren Goodput-Schemas können Sie Ihre ML-Produktivität optimieren.
      • GKE-Arbeitslasten mit Topology Aware Scheduling planen
      • Probieren Sie eines unserer Benchmarking-Schemas aus, um DeepSeek-, Mixtral-, Llama- und GPT-Modelle auf GPUs auszuführen.
      • Wählen Sie eine Verbrauchsoption aus, um Rechenressourcen effizienter zu beziehen und zu nutzen.

      Priceline: Einzigartige Erlebnisse für Reisende

      „Durch die Zusammenarbeit mit Google Cloud und das Einbinden von generativer KI können wir einen maßgeschneiderten Reise-Concierge als Teils unseres Chatbots anbieten. Wir möchten, dass alle Personen, die unseren Service nutzen, nicht einfach nur eine Reise planen, sondern ihr ganz persönliches und einzigartiges Reiseerlebnis gestalten können.“ Martin Brodbeck, CTO, Priceline

      Logo: Priceline

      Modelle kosteneffizient im großen Maßstab bereitstellen

      Preis-Leistungs-Verhältnis und Zuverlässigkeit für Inferenz-Arbeitslasten maximieren

      Die Inferenz wird schnell vielfältiger und komplexer und entwickelt sich in drei Hauptbereichen weiter:

      • Erstens: Die Art und Weise, wie wir mit KI interagieren, verändert sich. Gespräche haben jetzt einen viel längeren und vielfältigeren Kontext.
      • Zweitens: Durch ausgeklügelte Schlussfolgerungen und mehrstufige Inferenz werden Mixture-of-Experts-Modelle (MoE) immer beliebter. Das verändert die Art und Weise, wie Speicher und Rechenleistung von der Eingabe bis zur Ausgabe skaliert werden.
      • Außerdem ist klar, dass es nicht nur um die Anzahl der Tokens pro Dollar geht, sondern um die Nützlichkeit der Antwort. Verfügt das Modell über das erforderliche Fachwissen? Wurde eine wichtige Geschäftsfrage richtig beantwortet? Deshalb sind wir der Meinung, dass Kunden bessere Messwerte benötigen, die sich auf die Gesamtkosten des Systembetriebs konzentrieren und nicht auf den Preis der Prozessoren.

      Preis-Leistungs-Verhältnis und Zuverlässigkeit für Inferenz-Arbeitslasten maximieren

      Die Inferenz wird schnell vielfältiger und komplexer und entwickelt sich in drei Hauptbereichen weiter:

      • Erstens: Die Art und Weise, wie wir mit KI interagieren, verändert sich. Gespräche haben jetzt einen viel längeren und vielfältigeren Kontext.
      • Zweitens: Durch ausgeklügelte Schlussfolgerungen und mehrstufige Inferenz werden Mixture-of-Experts-Modelle (MoE) immer beliebter. Das verändert die Art und Weise, wie Speicher und Rechenleistung von der Eingabe bis zur Ausgabe skaliert werden.
      • Außerdem ist klar, dass es nicht nur um die Anzahl der Tokens pro Dollar geht, sondern um die Nützlichkeit der Antwort. Verfügt das Modell über das erforderliche Fachwissen? Wurde eine wichtige Geschäftsfrage richtig beantwortet? Deshalb sind wir der Meinung, dass Kunden bessere Messwerte benötigen, die sich auf die Gesamtkosten des Systembetriebs konzentrieren und nicht auf den Preis der Prozessoren.

      Ressourcen zur KI-Inferenz ansehen

        Assembly AI nutzt Google Cloud für mehr Kosteneffizienz

        „Unsere Testergebnisse zeigen, dass Cloud TPU v5e der kostengünstigste Beschleuniger für umfangreiche Inferenzen für unser Modell ist. Geboten wird eine 2,7-mal höhere Leistung pro Dollar als bei G2- und eine 4,2-mal höhere Leistung pro Dollar als bei A2-Instanzen.“ Domenic Donato

        Vice President Technology, AssemblyAI


        Logo: AssemblyAI
        Lösung erstellen
        Welches Problem möchten Sie lösen?
        What you'll get:
        Detaillierte Anleitung
        Referenzarchitektur
        Vorkonfigurierte Lösungen
        Dieser Dienst wurde mit Vertex AI erstellt. Nutzer müssen mindestens 18 Jahre alt sein, um ihn verwenden zu können. Geben Sie keine vertraulichen oder personenbezogenen Daten ein.

        Open-Source-Modelle in Google Cloud

        Modell mit GKE auf einer einzelnen GPU bereitstellen

        Gängige Modelle mit GPUs trainieren

        Bereitstellung von Modellen für mehrere GPUs skalieren

        LLM mithilfe von mehrere Hosts in GKE mit Saxml bereitstellen

        Mit dem NVIDIA Nemo-Framework in großem Maßstab trainieren

        FAQs

        Ist AI Hypercomputer der einfachste Weg, um mit KI-Arbeitslasten in Google Cloud zu beginnen?

        Für die meisten Kundenunternehmen eignet sich eine verwaltete KI-Plattform wie Vertex AI am Besten als Einstieg in die KI, da sie alle Tools, Vorlagen und Modelle bietet. Außerdem nutzt Vertex AI in einer für Sie optimierten Weise die AI Hypercomputer-Architektur. Vertex AI ist der einfachste Einstieg, da es die unkomplizierteste Lösung ist. Wenn Sie lieber jede einzelne Komponente Ihrer Infrastruktur selbst konfigurieren und optimieren möchten, können Sie auf die Komponenten des KI-Hypercomputers als Infrastrukturelemente zugreifen und sie so zusammenstellen, dass sie Ihren Anforderungen entsprechen.

        Einzelne Dienste bieten zwar spezifische Funktionen, aber dennoch stellt die AI Hypercomputer-Architektur ein integriertes System bereit, bei dem Hardware, Software und Verbrauchsmodelle optimal aufeinander abgestimmt sind. Diese Einbindung ermöglicht Effizienz auf Systemebene in Bezug auf Leistung, Kosten und Markteinführungszeit – etwas, das durch das Zusammenfügen getrennter Dienste schwerer zu erreichen ist. Die Architektur vereinfacht die Komplexität und bietet einen ganzheitlichen Ansatz für die KI-Infrastruktur.



        Ja, AI Hypercomputer ist flexibel einsetzbar. Technologien wie Cross-Cloud Interconnect bieten eine Konnektivität mit hoher Bandbreite zu lokalen Rechenzentren und anderen Clouds und erleichtern so hybride und Multi-Cloud-KI-Strategien. Wir arbeiten mit offenen Standards und binden gängige Drittanbieter-Software ein, damit Sie Lösungen entwickeln können, die mehrere Umgebungen umfassen, und Dienste nach Belieben anpassen können.

        Sicherheit ist ein zentraler Aspekt der AI Hypercomputer-Architektur. Sie profitiert vom mehrschichtigen Sicherheitsmodell von Google Cloud. Zu den spezifischen Funktionen gehören Titan-Sicherheitsmikrocontroller (die dafür sorgen, dass Systeme aus einem vertrauenswürdigen Zustand heraus gestartet werden), die RDMA-Firewall (für Zero-Trust-Netzwerke zwischen TPUs/GPUs während des Trainings) und die Einbindung von Lösungen wie Model Armor zur Bereitstellung der KI-Sicherheit. Ergänzt werden diese Funktionen durch robuste Richtlinien und Grundsätze für die Infrastruktursicherheit, wie das Secure AI Framework.

        • Wenn Sie keine VMs verwalten möchten, empfehlen wir Ihnen, mit der Google Kubernetes Engine (GKE) zu beginnen.
        • Wenn Sie mehrere Scheduler verwenden müssen oder GKE nicht nutzen können, empfehlen wir Cluster Director.
        • Es gibt nur einen Weg, die vollständige Kontrolle über Ihre Infrastruktur zu haben, und das ist die direkte Arbeit mit VMs. Dafür ist Google Compute Engine die beste Option.


        Nein. AI Hypercomputer kann für Arbeitslasten jeder Größe verwendet werden. Auch kleinere Arbeitslasten profitieren von den Vorteilen integrierter Systeme, wie z. B. Effizienz und vereinfachte Bereitstellung. AI Hypercomputer unterstützt Kundenunternehmen auch bei der Skalierung ihrer Geschäfte, von kleinen Proof-of-Concepts und Experimenten bis hin zu groß angelegten Produktionsbereitstellungen.

        Ja, wir erstellen eine Bibliothek mit Schemas in GitHub. Sie können auch das Cluster Toolkit für vordefinierte Cluster-Blueprints verwenden.

        KI-optimierte Hardware

        Speicher

        • Training: Managed Lustre eignet sich ideal für anspruchsvolles KI-Training mit hohem Durchsatz und Kapazitäten im PB-Bereich. GCS Fuse (optional mit Anywhere Cache) eignet sich für größere Kapazitäten mit einer höheren Latenz. Beide lassen sich in GKE und Cluster Director einbinden.
        • Inferenz: GCS Fuse mit Anywhere Cache bietet eine einfache Lösung. Für eine höhere Leistung sollten Sie Hyperdisk ML in Betracht ziehen. Wenn Sie Managed Lustre für das Training in derselben Zone verwenden, können Sie es auch für die Inferenz nutzen.

        Netzwerk

        • Training: Nutzen Sie Technologien wie RDMA-Netzwerke in VPCs und Cloud Interconnect und Cross-Cloud Interconnect mit hoher Bandbreite für eine schnelle Datenübertragung.
        • Inferenz: Nutzen Sie Lösungen wie das GKE Inference Gateway und erweitertes Cloud Load Balancing für die Bereitstellung mit geringer Latenz. Model Armor kann zur Bereitstellung der KI-Sicherheit eingebunden werden.

        Compute: Sie haben Zugriff auf Google Cloud TPUs (Trillium), NVIDIA-GPUs (Blackwell) und CPUs (Axion). So können Sie die Optimierung an die spezifischen Anforderungen der Arbeitslast in Bezug auf Durchsatz, Latenz oder Gesamtkosten anpassen.

        Führende Software und offene Frameworks

        • ML-Frameworks und ‑Bibliotheken: PyTorch, JAX, TensorFlow, Keras, vLLM, JetStream, MaxText, LangChain, Hugging Face, NVIDIA (CUDA, NeMo, Triton) und viele weitere Open-Source- und Drittanbieteroptionen.
        • Compiler, Laufzeiten und Tools: XLA (für Leistung und Interoperabilität), Pathways on Cloud, Multislice Training, Cluster Toolkit (für vordefinierte Cluster-Blaupausen) und viele weitere Open-Source- und Drittanbieteroptionen.
        • Orchestrierung: Google Kubernetes Engine (GKE), Cluster Director (für Slurm, nicht verwaltete Kubernetes-Cluster, BYO-Scheduler) und Google Compute Engine (GCE).

        Nutzungsmodelle:

        • On Demand: Pay as you go.
        • Rabatte für zugesicherte Nutzung (Committed Use Discounts, CUDs): Bei langfristigen Zusicherungen können Sie bis zu 70 % sparen.
        • Spot-VMs: Ideal für fehlertolerante Batchjobs, mit hohen Rabatten (bis zu 91 %).
        • Dynamic Workload Scheduler (DWS): Bis zu 50 % Einsparungen bei Batch- und fehlertoleranten Jobs.
        Google Cloud