Was ist ein KI-Arbeitslast?

Eine KI-Arbeitslast ist die Sammlung von Rechenaufgaben und Prozessen, die KI- oder ML-Systeme (Machine Learning) antreiben. Sie können sich das als die Rechenleistung vorstellen, die eine KI-Anwendung benötigt, um zu lernen, Vorhersagen zu treffen oder neue Inhalte zu generieren. Diese Arbeitslasten können für Fachleute, die KI entwickeln, von entscheidender Bedeutung sein, da sie die wichtigsten Phasen umfassen, die Machine-Learning-Systeme vorantreiben: Datenvorbereitung, Modelltraining, Inferenz und Monitoring.

Optionen für die Orchestrierung von KI-Arbeitslasten

Arten von KI-Arbeitslasten

KI- und ML-Arbeitslasten lassen sich grob in zwei Kategorien einteilen:

Wenn Sie diese Typen kennen, können Sie als Entscheidungsträger im technischen Bereich die spezifische Infrastruktur, Rechenleistung und Orchestrierungsstrategie planen, die jeweils erforderlich sind.

KI-Arbeitslasttyp

Hauptfunktion im KI-Lebenszyklus

Erforderlicher Rechenschwerpunkt

Datenvorbereitung


Rohdaten werden bereinigt, transformiert und so formatiert, dass sie für das Modelltraining geeignet sind.

E/A-intensive (Eingabe/Ausgabe) und CPU-intensive Verarbeitung zur Datenmanipulation.

Modelltraining

Mit vorbereiteten Daten wird das KI-Modell trainiert und seine Parameter werden iterativ angepasst, um die Genauigkeit zu erhöhen.

Extreme Rechenleistung (GPUs/TPUs), großer Arbeitsspeicher und Parallelverarbeitung.

Modellinferenz

Bereitstellung des trainierten Modells, um Echtzeitvorhersagen zu treffen oder Ausgaben für neue Daten zu generieren.

Niedrige Latenz und hoher Durchsatz, oft mit spezialisierter Edge- oder Cloud-Hardware.

Generative KI

Erstellung neuer Inhalte wie Text, Bilder oder Code mithilfe großer Foundation Models.

Inferenz und Feinabstimmung in großem Umfang, die High-End-GPUs/TPUs erfordern.

Computer Vision


Maschinen können visuelle Daten wie Bilder und Videos interpretieren und darauf reagieren.

Hoher Datendurchsatz und spezielle Beschleunigung für Deep Learning.

Natural Language Processing (NLP)

Verarbeitung und Verständnis menschlicher Sprache für Aufgaben wie Übersetzungen und Zusammenfassungen.

Eine Mischung aus GPU-beschleunigtem Training und Bereitstellung mit niedriger Latenz für Echtzeitanwendungen.

KI-Arbeitslasttyp

Hauptfunktion im KI-Lebenszyklus

Erforderlicher Rechenschwerpunkt

Datenvorbereitung


Rohdaten werden bereinigt, transformiert und so formatiert, dass sie für das Modelltraining geeignet sind.

E/A-intensive (Eingabe/Ausgabe) und CPU-intensive Verarbeitung zur Datenmanipulation.

Modelltraining

Mit vorbereiteten Daten wird das KI-Modell trainiert und seine Parameter werden iterativ angepasst, um die Genauigkeit zu erhöhen.

Extreme Rechenleistung (GPUs/TPUs), großer Arbeitsspeicher und Parallelverarbeitung.

Modellinferenz

Bereitstellung des trainierten Modells, um Echtzeitvorhersagen zu treffen oder Ausgaben für neue Daten zu generieren.

Niedrige Latenz und hoher Durchsatz, oft mit spezialisierter Edge- oder Cloud-Hardware.

Generative KI

Erstellung neuer Inhalte wie Text, Bilder oder Code mithilfe großer Foundation Models.

Inferenz und Feinabstimmung in großem Umfang, die High-End-GPUs/TPUs erfordern.

Computer Vision


Maschinen können visuelle Daten wie Bilder und Videos interpretieren und darauf reagieren.

Hoher Datendurchsatz und spezielle Beschleunigung für Deep Learning.

Natural Language Processing (NLP)

Verarbeitung und Verständnis menschlicher Sprache für Aufgaben wie Übersetzungen und Zusammenfassungen.

Eine Mischung aus GPU-beschleunigtem Training und Bereitstellung mit niedriger Latenz für Echtzeitanwendungen.

Häufig gestellte Fragen zu KI-Arbeitslasten

KI-Arbeitslasten sind in erster Linie datenintensiv, da sie riesige, oft unstrukturierte Datasets verarbeiten. Außerdem sind sie rechenintensiv und erfordern für das Training spezielle Hardware für die parallele Verarbeitung wie GPUs. Bei herkömmlichen Arbeitslasten wie relationalen Datenbanken oder einfachen Webservern liegt der Fokus eher auf einem konsistenten Transaktionsdurchsatz und sie sind in der Regel für Standard-CPU-Architekturen optimiert.

Trainingsarbeitslasten werden ausgewählt, wenn Sie ein neues Modell erstellen oder ein vorhandenes Modell durch die Eingabe neuer Daten deutlich verbessern möchten. Dies kann kostspielig sein und eine hohe Rechenleistung erfordern.

Inferenz-Workloads verwenden Sie, wenn Ihr Modell bereit und in der Produktion bereitgestellt ist und Sie es für Batchvorhersagen in Echtzeit benötigen. Dabei werden niedrige Latenz und hoher Durchsatz bei geringeren Kosten pro Transaktion priorisiert.

Die größten Herausforderungen sind in der Regel die Orchestrierung, also die effiziente Koordination großer Cluster von GPUs und TPUs, die Datenverwaltung, also der schnelle und zuverlässige Zugriff auf Petabyte an Daten, und die Kostenkontrolle, also die Verwaltung des Verbrauchs teurer Rechenressourcen, um Mehrausgaben für ungenutzte Infrastruktur zu vermeiden.

Zu den neuen Trends gehören die Verwendung serverloser Plattformen mit GPU-Unterstützung, um die Infrastrukturverwaltung zu abstrahieren, die Einführung einer Multi-Cloud-Orchestrierung für eine flexible Ressourcennutzung und die Nutzung von Foundation Models, die weniger Training von Grund auf erfordern und sich mehr auf Feinabstimmung und effiziente Bereitstellung konzentrieren.

Gängige Anwendungsfälle für KI-Arbeitslasten

KI-Arbeitslasten sind das Herzstück der digitalen Transformation. Sie ermöglichen wirkungsvolle, praxisnahe Anwendungen in nahezu allen Branchen und wandeln Daten in praktischen Nutzen um.

Personalisierte Kundenerlebnisse

KI-Arbeitslasten können Empfehlungssysteme für Einzelhandels-, E-Commerce- und Medienunternehmen unterstützen. Ein Streaminganbieter verwendet beispielsweise ein ausgeklügeltes ML-Modell, das mit Milliarden von Sehgewohnheiten trainiert wurde, um hochgradig personalisierte Inhaltsempfehlungen zu geben.

Vorausschauende Instandhaltung in der Fertigung

Hersteller setzen Sensoren an kritischen Geräten ein, wodurch riesige Mengen an Zeitreihendaten entstehen. KI-Arbeitslasten können diese Daten kontinuierlich analysieren, um mechanische Fehler Tage oder Wochen im Voraus vorherzusagen und so eine planmäßige Wartung zu ermöglichen.

Betrugserkennung und Finanzrisikoanalyse

Finanzinstitute nutzen Workloads für maschinelles Lernen, um Millionen von Transaktionen in Echtzeit zu analysieren. Diese Modelle können Muster erkennen, die auf Betrug hindeuten. Einige Systeme erkennen unbefugte Transaktionen mit hoher Genauigkeit und einer niedrigen Falsch-Positiv-Rate.

Bildgebung und Diagnostik im Gesundheitswesen

Computer-Vision-Arbeitslasten werden verwendet, um medizinische Bilder wie Röntgenbilder, CT-Scans und MRTs zu analysieren. Diese KI-Modelle können potenzielle Anomalien wie Tumore im Frühstadium erkennen – oft schneller und zuverlässiger als menschliche Fachkräfte, was zu einer schnelleren und genaueren Diagnose beitragen kann.

Generative KI und Inhaltserstellung

Arbeitslasten, die auf generativen KI-Modellen basieren, tragen zur Transformation kreativer und technischer Bereiche bei. Sie werden verwendet, um automatisch Marketingtexte zu generieren, realistische Bilder für die Werbung zu erstellen, Zusammenfassungen von virtuellen Meetings zu erstellen oder sogar Entwickler zu unterstützen, indem sie Codeblöcke vorschlagen und vervollständigen.

KI-Arbeitslasten in Google Cloud implementieren

Google Cloud bietet ein leistungsstarkes, einheitliches Ökosystem, das auf der Infrastruktur basiert, die auch die KI-Entwicklungen von Google unterstützt. Damit ist es eine ideale Plattform für das Hosting, die Skalierung, die Orchestrierung und die Verwaltung Ihrer KI- und ML-Arbeitslasten.

Vertex AI ist eine einheitliche Plattform für maschinelles Lernen, die alle Cloud-Dienste zum Erstellen, Bereitstellen und Skalieren von ML-Modellen zusammenführt. Sie bietet eine einheitliche Umgebung für den gesamten MLOps-Lebenszyklus, sodass sich Data Scientists und Data Engineers auf die Modellentwicklung konzentrieren können, anstatt Tools zu integrieren.

Google Cloud bietet eine Vielzahl von Computing-Optionen, darunter Cloud TPU und Cloud GPU. Cloud TPUs (Tensor Processing Units) wurden speziell für die Bereitstellung von KI-Modellen im großen Maßstab entwickelt. Cloud-GPUs basieren auf NVIDIA-Grafikprozessoren (GPUs) und bieten flexible, leistungsstarke Rechenleistung für eine Vielzahl von KI- und HPC-Arbeitslasten.


Mit Vertex AI Pipelines können Sie Ihren gesamten Machine-Learning-Workflow mit Open-Source-Tools wie Kubeflow automatisieren, verwalten und überwachen. Dies kann entscheidend sein, um zuverlässige, wiederholbare Prozesse für die Datenaufbereitung, das Training und die Bereitstellung zu schaffen.

Die Identitäts- und Zugriffsverwaltung (Identity and Access Management, IAM) von Google Cloud bietet detaillierte Steuerungsmöglichkeiten, um zu verwalten, wer auf Ihre KI-Ressourcen, Daten und Modelle zugreifen und diese verwalten kann. So können Sie sicherstellen, dass nur autorisiertes Personal und autorisierte Dienste mit Ihren sensiblen KI-Arbeitslasten interagieren können, und strenge regulatorische und Sicherheitsstandards einhalten.

Google Kubernetes Engine (GKE) ist ein vollständig verwalteter, skalierbarer Kubernetes-Dienst, der für das Ausführen containerisierter KI-Arbeitslasten unerlässlich ist. Sie können damit komplexe Cluster orchestrieren und verwalten, Hardwarebeschleuniger flexibel einsetzen und Ihre KI-Umgebung nahtlos auf die öffentliche Cloud und lokale Systeme ausweiten.

Vorteile von KI-Arbeitslasten

Der Einsatz von KI-Arbeitslasten kann erhebliche geschäftliche und technische Vorteile bringen, vor allem durch die Konzentration auf Effizienz, überlegene Skalierbarkeit und die Fähigkeit, datengestützte Innovationen schnell voranzutreiben. Sie ermöglichen es Unternehmen, von reaktiven Abläufen zu einer proaktiveren, intelligenteren Strategie überzugehen.

Skalierbarkeit und beschleunigte Leistung

KI-Arbeitslasten, insbesondere in der Cloud, können Ressourcen bedarfsgerecht skalieren – beispielsweise Hunderte von GPUs hinzufügen –, um riesige Datasets und komplexe Modelle zu verarbeiten, ohne dass hohe Vorabinvestitionen erforderlich sind.

Optimierte Betriebskosten

Cloudbasierte KI-Plattformen ermöglichen es Ihnen, nur für die tatsächlich genutzten Rechenressourcen zu zahlen. So können Sie Kosten optimieren, anstatt dedizierte, lokale Hardwarecluster zu verwalten, die zeitweise nicht genutzt werden.

Standardisierte und optimierte Bereitstellungspipelines

Plattformen für KI-Arbeitslasten verwenden MLOps-Tools (Machine Learning Operations), um den End-to-End-Lebenszyklus zu automatisieren und zu standardisieren – von der Datenvorbereitung bis zur Modellbereitstellung und zum Monitoring.

Integration von Sicherheit und Governance

Eine Cloud-Plattform bietet integrierte Sicherheitsfunktionen wie Identitäts- und Zugriffsverwaltung (IAM) und Netzwerksicherheit, die direkt in Ihre KI-Umgebung eingebunden sind. So lassen sich die Anforderungen an die Einhaltung von Vorschriften und Governance einfacher erfüllen.

Unterstützung für Hybrid- und Multi-Cloud-Umgebungen

KI-Lösungen sind so konzipiert, dass sie flexibel ausgeführt werden können. Sie können Container und Orchestrierungstools nutzen, um Arbeitslasten bei verschiedenen Anbietern öffentlicher Cloud-Dienste einheitlich zu verwalten und auszuführen.

Schritte zum Bereitstellen einer Modellinferenz-Arbeitslast mit Vertex AI

Die Bereitstellung eines trainierten ML-Modells für die Inferenz kann ein wichtiger Schritt bei der Produktionsreife einer KI-Arbeitslast sein. Vertex AI vereinfacht diesen Prozess durch verwaltete Dienste, die die zugrunde liegende Infrastruktur verwalten.

Trainiertes Modell in die Model Registry hochladen

  • Der erste Schritt besteht darin, das trainierte Modellartefakt zu nehmen und es in die Vertex AI Model Registry hochzuladen. In diesem zentralen Repository werden Ihre Modelle sicher gespeichert und versioniert, sodass sie bereit für die Bereitstellung sind.

Verwalteten Endpunkt erstellen

  • Als Nächstes erstellen Sie einen Endpunkt, einen dedizierten HTTP-Server in Echtzeit für Ihr Modell. Dieser Endpunkt ist die URL, die Ihre Anwendungen aufrufen, um Vorhersagen zu erhalten. Sie definieren den Typ der zu verwendenden Rechenressourcen, z. B. eine N1-CPU-Maschine oder einen bestimmten GPU-Typ für eine höhere Leistung.

Modell für den Endpunkt bereitstellen

  • Nachdem Sie den Endpunkt erstellt haben, stellen Sie eine bestimmte Version Ihres Modells darauf bereit. In diesem Schritt geben Sie das Container-Image an, das Ihr Modell und den Vorhersageservercode enthält (oft ein von Vertex AI bereitgestelltes vordefiniertes Image). Sie konfigurieren auch Traffic-Aufteilungen, mit denen Sie eine neue Modellversion mit einem kleinen Prozentsatz des Live-Traffics testen können, bevor Sie sie vollständig einführen.

Onlinevorhersagen senden und empfangen

  • Nach der Bereitstellung ist das Modell für Onlinevorhersagen verfügbar. Ihre Anwendung sendet Eingabedaten (die Nutzlast) über eine HTTP-Anfrage an die URL des Endpunkts. Der verwaltete Dienst übernimmt die Inferenz-Arbeitslast und gibt die Vorhersage oder das Ergebnis nahezu in Echtzeit zurück.

Endpunkte überwachen und verwalten

  • Der letzte Schritt ist die kontinuierliche Überwachung. Sie verwenden die integrierten Tools von Vertex AI, um den Zustand des Endpunkts (Latenz, Fehlerraten, Ressourcenauslastung) und die Leistung des Modells selbst (Drift, Verzerrung und Vorhersagequalität) zu verfolgen, damit die Inferenz-Workload im Laufe der Zeit zuverlässig und genau bleibt.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.

Weitere Ressourcen

  • Einführung in KI-/ML-Arbeitslasten in der GKE: Die Google Kubernetes Engine bietet eine verwaltete Plattform zum Bereitstellen und Skalieren von containerisierten KI- und Machine-Learning-Arbeitslasten. Sie unterstützt umfangreiches Training und Inferenz mit Hardwarebeschleunigern wie GPUs und TPUs.
  • Speicher für KI- und ML-Arbeitslasten entwerfen: Dieser Leitfaden hilft Ihnen bei der Entwicklung von Speicherstrategien für KI- und Machine-Learning-Workflows. Dabei werden Dienste wie Cloud Storage und Managed Lustre basierend auf spezifischen Anforderungen an Latenz, Durchsatz und Kapazität empfohlen.

Gleich loslegen

Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“ Produkte kennenzulernen.

Google Cloud