Was ist KI-Inferenz?

KI-Inferenz ist der „aktive“ Teil der künstlichen Intelligenz. Das ist der Moment, in dem ein trainiertes Modell aufhört zu lernen und anfängt zu arbeiten, indem es sein Wissen in Ergebnisse für die Praxis umwandelt.

Stellen Sie sich das so vor: Wenn das Training einer KI das Erlernen einer neuen Fähigkeit ist, dann ist die Inferenz die tatsächliche Anwendung dieser Fähigkeit, um eine Aufgabe zu erledigen. Sie verarbeitet neue Daten (z. B. ein Foto oder einen Text) und gibt sofort eine Ausgabe aus, z. B. eine Vorhersage, ein generiertes Foto oder eine Entscheidung. Hier liegt der Geschäftswert von KI. Wer KI-Lösungen entwickelt, muss wissen, wie sich Inferenz schnell, skalierbar und kosteneffizient gestalten lässt.

BLOG

Frag eine Koryphäe: Was ist Inferenz?

„KI-Training“ im Vergleich zu „Abstimmung“, „Inferenz“ und „Bereitstellung“

Der vollständige KI-Lebenszyklus umfasst alles von der Datenerhebung bis zum langfristigen Monitoring. Der zentrale Weg eines Modells von der Erstellung bis zur Ausführung lässt sich in drei Hauptphasen unterteilen. Die ersten beiden beziehen sich auf das Lernen, während es beim letzten darum geht, das Gelernte anzuwenden.

KI-Training ist die grundlegende Lernphase. Es ist ein rechenintensiver Prozess, bei dem ein Modell ein riesiges Dataset analysiert, um Muster und Beziehungen zu erkennen. Ziel ist es, ein präzises und sachkundiges Modell zu erstellen. Dafür sind leistungsstarke Hardwarebeschleuniger (wie GPUs und TPUs) erforderlich und es kann Stunden bis Wochen dauern.
KI-Feinabstimmung ist eine Abkürzung für das Training. Dabei wird ein leistungsstarkes, vortrainiertes Modell mit einem kleineren, spezialisierten Dataset an eine spezifischere Aufgabe angepasst. Das spart im Vergleich zum Training eines Modells von Grund auf viel Zeit und Ressourcen.
Die KI-Inferenz ist die Ausführungsphase. Es verwendet das trainierte und abgestimmte Modell, um schnelle Vorhersagen zu neuen, „unbekannten“ Daten zu treffen. Jede einzelne Vorhersage ist weitaus weniger rechenintensiv als das Training, aber Millionen von Vorhersagen in Echtzeit zu liefern, erfordert eine hochoptimierte und skalierbare Infrastruktur.
KI-Bereitstellung ist der Prozess der Bereitstellung und Verwaltung des Modells für die Inferenz. Dazu gehört oft, das Modell zu verpacken, einen API-Endpunkt einzurichten und die Infrastruktur zur Bearbeitung von Anfragen zu verwalten.

In der folgenden Tabelle sind die wichtigsten Unterschiede zusammengefasst:

	Schulungen zum Thema KI	KI-Optimierung	KI-Inferenz	KI-Bereitstellung
Ziel	Ein neues Modell von Grund auf neu erstellen.	Ein vortrainiertes Modell für eine bestimmte Aufgabe anpassen.	Ein trainiertes Modell für Vorhersagen verwenden	Modell bereitstellen und verwalten, um Inferenzanfragen zu verarbeiten.
Prozess	Lernen iterativ aus einem großen Dataset	Ein vorhandenes Modell wird mit einem kleineren Dataset verfeinert.	Ein einzelner, schneller „Forward Pass“ neuer Daten.	Modell verpacken und als API bereitstellen
Daten	Große, historische, gelabelte Datasets.	Kleinere, aufgabenspezifische Datasets.	Live-Daten aus der Praxis, die nicht gelabelt sind.	–
Geschäftsschwerpunkt	Modellgenauigkeit und -fähigkeiten.	Effizienz und Personalisierung.	Geschwindigkeit (Latenz), Skalierbarkeit und Kosteneffizienz.	Zuverlässigkeit, Skalierbarkeit und Verwaltbarkeit des Inferenzendpunkts.

Schulungen zum Thema KI

KI-Optimierung

KI-Inferenz

KI-Bereitstellung

Ziel

Ein neues Modell von Grund auf neu erstellen.

Ein vortrainiertes Modell für eine bestimmte Aufgabe anpassen.

Ein trainiertes Modell für Vorhersagen verwenden

Modell bereitstellen und verwalten, um Inferenzanfragen zu verarbeiten.

Prozess

Lernen iterativ aus einem großen Dataset

Ein vorhandenes Modell wird mit einem kleineren Dataset verfeinert.

Ein einzelner, schneller „Forward Pass“ neuer Daten.

Modell verpacken und als API bereitstellen

Daten

Große, historische, gelabelte Datasets.

Kleinere, aufgabenspezifische Datasets.

Live-Daten aus der Praxis, die nicht gelabelt sind.

–

Geschäftsschwerpunkt

Modellgenauigkeit und -fähigkeiten.

Effizienz und Personalisierung.

Geschwindigkeit (Latenz), Skalierbarkeit und Kosteneffizienz.

Zuverlässigkeit, Skalierbarkeit und Verwaltbarkeit des Inferenzendpunkts.

Wie funktioniert KI-Inferenz?

Im Wesentlichen umfasst die KI-Inferenz drei Schritte, bei denen neue Daten in eine nützliche Ausgabe umgewandelt werden.

Sehen wir uns das anhand eines einfachen Beispiels an: ein KI-Modell, das Objekte auf Fotos erkennen soll.

Vorbereitung der Eingabedaten: Zuerst werden neue Daten bereitgestellt, zum Beispiel ein Foto, das Sie gerade hochgeladen haben. Das Foto wird sofort für das Modell vorbereitet, was beispielsweise bedeuten kann, dass es auf die genauen Abmessungen verkleinert wird, mit denen das Modell trainiert wurde.
Modellausführung: Als Nächstes analysiert das KI-Modell das vorbereitete Foto. Es sucht nach Mustern wie Farben, Formen und Texturen, die mit dem übereinstimmen, was es während des Trainings erlernt hat. Diese schnelle Analyse wird als Forward Pass bezeichnet. Dabei wendet das Modell sein Wissen an, ohne etwas Neues zu lernen.
Ausgabegenerierung: Das Modell erzeugt ein verwertbares Ergebnis. Bei der Fotoanalyse kann dies ein Wahrscheinlichkeitswert sein (z. B. eine Wahrscheinlichkeit von 95 %, dass das Bild einen „Hund“ enthält). Diese Ausgabe wird dann an die Anwendung gesendet und dem Nutzer angezeigt.

Eine einzelne Inferenz ist zwar schnell, aber Millionen von Nutzern in Echtzeit zu bedienen, erhöht die Latenz und die Kosten und erfordert optimierte Hardware. Auf KI spezialisierte Graphics Processing Units (GPUs) und die Tensor Processing Units von Google sind für diese Aufgaben ausgelegt und können sie effizient erledigen. In Kombination mit der Orchestrierung durch die Google Kubernetes Engine lassen sich so der Durchsatz erhöhen und die Latenz verringern.

Arten von KI-Inferenz

Cloud-Inferenz: für Leistung und Skalierbarkeit

Dies ist der gängigste Ansatz, bei dem die Inferenz auf leistungsstarken Remote-Servern in einem Rechenzentrum ausgeführt wird. Die Cloud bietet immense Skalierbarkeit und Rechenressourcen und eignet sich daher ideal für die Verarbeitung riesiger Datensätze und komplexer Modelle. In der Cloud gibt es in der Regel zwei primäre Inferenzmodi:

Echtzeit-Inferenz (online): Einzelne Anfragen werden sofort nach Eingang verarbeitet, oft innerhalb von Millisekunden. Das ist entscheidend für interaktive Anwendungen, die sofortiges Feedback erfordern.
Batch-Inferenz (offline): Verarbeitet große Datenmengen auf einmal, typischerweise wenn keine sofortigen Antworten erforderlich sind. Dies ist eine sehr kosteneffiziente Methode für regelmäßige Analysen oder geplante Aufgaben.

Edge-Inferenz: für Geschwindigkeit und Datenschutz

Bei diesem Ansatz wird die Inferenz direkt auf dem Gerät ausgeführt, auf dem die Daten generiert werden – z. B. auf einem Smartphone oder einem Industriesensor. Da keine Roundtrips zur Cloud erforderlich sind, bietet die Edge-Inferenz einzigartige Vorteile:

Geringere Latenz: Antworten erfolgen nahezu sofort, was für Anwendungen wie autonome Fahrzeuge oder Echtzeit-Fertigungsprüfungen entscheidend ist.
Besserer Datenschutz: Sensible Daten (z. B. medizinische Scans, private Fotos, Videostreams) können auf dem Gerät verarbeitet werden, ohne jemals in die Cloud gesendet zu werden.
Geringere Bandbreitenkosten: Durch die lokale Verarbeitung von Daten wird die Menge der Daten, die hoch- und heruntergeladen werden müssen, erheblich reduziert.
Offline-Funktionalität: Die Anwendung kann auch ohne Internetverbindung weiterarbeiten und sorgt so für einen kontinuierlichen Betrieb in abgelegenen oder getrennten Umgebungen.

Meistern Sie Ihre geschäftlichen Herausforderungen mit Google Cloud

Neukunden erhalten ein Guthaben im Wert von 300 $ für Google Cloud.

Vergleich von KI-Inferenz

Um Ihnen die Wahl des besten Ansatzes für Ihre spezifischen Anforderungen zu erleichtern, finden Sie hier einen kurzen Vergleich der wichtigsten Merkmale und Anwendungsfälle für jeden Typ von KI-Inferenz:

Feature	Batch-Inferenz	Inferenz in Echtzeit	Edge-Inferenz
Primärer Standort	Cloud-Rechenzentren	Cloud-Rechenzentren	Lokales Gerät (z. B. Smartphone, IoT-Sensor, Roboter)
Latenz/Reaktionsfähigkeit	Hoch (Vorhersagen werden nach der Verarbeitung des Batches zurückgegeben)	Sehr niedrig (Millisekunden bis Sekunden pro Anfrage)	Extrem niedrig (nahezu sofort, kein Netzwerk-Hop)
Datenvolumen	Große Datasets (z. B. Terabytes)	Einzelne Ereignisse/Anfragen	Einzelne Ereignisse/Anfragen (auf dem Gerät)
Datenfluss	Daten werden an die Cloud gesendet, verarbeitet und die Ergebnisse zurückgegeben.	Jede an die Cloud gesendete, verarbeitete und zurückgegebene Anfrage	Daten werden auf dem Gerät verarbeitet, Ergebnisse werden auf dem Gerät verwendet
Typische Anwendungsfälle	Umfangreiche Dokumentenkategorisierung, Finanzanalyse über Nacht, regelmäßige vorausschauende Wartung	Produktempfehlungen, Chatbots, Live-Übersetzung, Betrugswarnungen in Echtzeit	Autonomes Fahren, intelligente Kameras, Offline-Sprachassistenten, industrielle Qualitätskontrolle
Hauptvorteile	Kosteneffizient für große, nicht dringende Aufgaben	Sofortige Reaktionsfähigkeit für nutzerorientierte Apps	Minimale Latenz, verbesserter Datenschutz, Offline-Funktionen, geringere Bandbreitenkosten

Feature

Batch-Inferenz

Inferenz in Echtzeit

Edge-Inferenz

Primärer Standort

Cloud-Rechenzentren

Lokales Gerät (z. B. Smartphone, IoT-Sensor, Roboter)

Latenz/Reaktionsfähigkeit

Hoch (Vorhersagen werden nach der Verarbeitung des Batches zurückgegeben)

Sehr niedrig (Millisekunden bis Sekunden pro Anfrage)

Extrem niedrig (nahezu sofort, kein Netzwerk-Hop)

Datenvolumen

Große Datasets (z. B. Terabytes)

Einzelne Ereignisse/Anfragen

Einzelne Ereignisse/Anfragen (auf dem Gerät)

Datenfluss

Daten werden an die Cloud gesendet, verarbeitet und die Ergebnisse zurückgegeben.

Jede an die Cloud gesendete, verarbeitete und zurückgegebene Anfrage

Daten werden auf dem Gerät verarbeitet, Ergebnisse werden auf dem Gerät verwendet

Typische Anwendungsfälle

Umfangreiche Dokumentenkategorisierung, Finanzanalyse über Nacht, regelmäßige vorausschauende Wartung

Produktempfehlungen, Chatbots, Live-Übersetzung, Betrugswarnungen in Echtzeit

Autonomes Fahren, intelligente Kameras, Offline-Sprachassistenten, industrielle Qualitätskontrolle

Hauptvorteile

Kosteneffizient für große, nicht dringende Aufgaben

Sofortige Reaktionsfähigkeit für nutzerorientierte Apps

Minimale Latenz, verbesserter Datenschutz, Offline-Funktionen, geringere Bandbreitenkosten

Anwendungsfälle für Entwickler

KI-Inferenz verändert Branchen durch neue Automatisierungsgrade, intelligentere Entscheidungsfindung und innovative Anwendungen. Für Entwickler in Unternehmen sind dies einige wichtige Bereiche, in denen Inferenz einen konkreten geschäftlichen Mehrwert bietet:

Risiko- und Betrugserkennung in Echtzeit

Finanztransaktionen, Nutzerverhalten oder Systemprotokolle lassen sich sofort analysieren, um verdächtige Aktivitäten zu erkennen und zu kennzeichnen. So können Sie proaktiv eingreifen, um Betrug, Geldwäsche oder Sicherheitsverstöße zu verhindern.
Beispiel: Ein Kreditkartenunternehmen verwendet Inferenz, um Transaktionen in Millisekunden zu autorisieren und potenziell betrügerische Käufe sofort zu blockieren.

Starke Personalisierung und Empfehlungssysteme

Sie können Nutzern maßgeschneiderte Inhalte anbieten, indem Sie ihre Vorlieben anhand ihrer bisherigen Interaktionen und des Echtzeitkontexts vorhersagen.
Beispiel: E-Commerce-Plattformen nutzen Inferenz, um Käufern Produkte vorzuschlagen, und Streamingdienste empfehlen Filme basierend auf den Sehgewohnheiten, was die Interaktion und den Umsatz steigert.

KI-gestützte Automatisierung und KI-Agenten

KI-Modelle können bereitgestellt werden, um Routineaufgaben zu automatisieren, intelligente Unterstützung zu bieten oder mit Nutzern in großem Umfang zu interagieren.
Beispiel: Kundenserviceorganisationen nutzen KI-Agenten, um häufige Anfragen zu bearbeiten, sodass menschliche Agenten mehr Zeit für komplexe Probleme haben. Oder Fabriken nutzen KI für die automatisierte Qualitätsprüfung an Fließbändern.

Vorausschauende Wartung und Abläufe

Analysieren Sie Sensordaten von Maschinen, Infrastruktur oder IT-Systemen, um Ausfälle vorherzusagen, die Nachfrage zu prognostizieren oder die Ressourcenzuweisung zu optimieren, bevor Probleme auftreten.
Beispiel: Hersteller nutzen Inferenz, um vorherzusagen, wann Geräte gewartet werden müssen. So lassen sich Ausfallzeiten minimieren und die Lebensdauer von Anlagen verlängern. Logistikunternehmen optimieren Routen anhand von Verkehrsprognosen in Echtzeit.

Erweiterte Inhaltsgenerierung und -analyse

Mit KI können Sie neue Inhalte (Text, Code, Bilder, Audio) erstellen oder vorhandene unstrukturierte Daten besser verstehen.
Beispiel: Entwicklungsteams nutzen Modelle zur Codegenerierung, um die Softwareentwicklung zu beschleunigen, und Marketingteams verwenden KI, um lange Dokumente zusammenzufassen und Werbetexte zu personalisieren.

So kann Google Cloud bei der KI-Inferenz helfen

Die KI-Inferenz bedingt eine Reihe technischer Herausforderungen, darunter die Verwaltung von Latenz, die Kontrolle von Kosten und die Sicherstellung der Skalierbarkeit. Google Cloud bietet einen flexiblen Pfad für die Inferenz, sodass Sie die richtigen Tools basierend auf der Komplexität Ihres Modells, den Leistungsanforderungen und der Betriebskapazität wählen können. Sie können mit vollständig verwalteten Lösungen beginnen und nach und nach eine stärker angepasste Infrastruktur einführen, wenn sich Ihre Anforderungen ändern.

Vortrainierte KI-APIs und vorgefertigte Modelle für eine schnelle Bereitstellung verwenden

Dieser Ansatz ist ideal für Entwickler aller Erfahrungsstufen, auch für KI-Neulinge, die schnell leistungsstarke KI-Funktionen einbinden möchten. Dazu sind nur einfache API-Aufrufe erforderlich; es müssen keine Modelle oder Infrastrukturen verwaltet werden.

Vertex AI Model Garden

Nutzen Sie die Gemini-Modelle von Google und eine Auswahl an Open-Source-Modellen mit einem einfachen API-Endpunkt. Sie müssen sich nicht um komplexe Aufgaben wie Hosting und Skalierung kümmern, sondern können sich auf Ihre Anwendung konzentrieren und hochwertige Ergebnisse für Aufgaben mit generativer KI erzielen.

Vertex AI Model Garden

Benutzerdefinierte Modelle in verwalteter Infrastruktur bereitstellen

Diese Option ist für Entwickler gedacht, die bereits ein benutzerdefiniertes Modell erstellt haben. Sie können dies im verwalteten Dienst von Google Cloud bereitstellen, sodass Sie sich nicht selbst um die komplexe Servereinrichtung oder Orchestrierung kümmern müssen. So können Sie sich auf Ihr Modell konzentrieren statt auf die Infrastruktur.

Vertex AI Prediction	Vertex AI Prediction ist ein verwalteter Dienst, der Modelle für maschinelles Lernen als skalierbare Endpunkte bereitstellt und Hardwarebeschleuniger wie GPUs für die schnelle Verarbeitung von Echtzeit- und großen Batch-Daten nutzt.
Cloud Run	Stellen Sie containerisierte Modelle mit Autoscaling auf null und nutzungsabhängiger Abrechnung bereit. Das ist ideal für stark variable, intermittierende Arbeitslasten oder einfache Webdienste.

Vertex AI Prediction

Vertex AI Prediction ist ein verwalteter Dienst, der Modelle für maschinelles Lernen als skalierbare Endpunkte bereitstellt und Hardwarebeschleuniger wie GPUs für die schnelle Verarbeitung von Echtzeit- und großen Batch-Daten nutzt.

Cloud Run

Stellen Sie containerisierte Modelle mit Autoscaling auf null und nutzungsabhängiger Abrechnung bereit. Das ist ideal für stark variable, intermittierende Arbeitslasten oder einfache Webdienste.

Benutzerdefinierte Bereitstellungsplattform für maximale Kontrolle erstellen

Entwickler und MLOps-Teams erhalten die volle Kontrolle und die nötige Flexibilität, um benutzerdefinierte containerisierte Inferenzdienste, oft mit spezialisierter Hardware, in Cloud- oder Hybridumgebungen bereitzustellen, zu verwalten und zu skalieren.

Google Kubernetes Engine (GKE)

GKE bietet eine detaillierte Kontrolle über die Hardware, einschließlich CPUs, GPUs und TPUs. Das ist ideal, um Leistung und Kosten der Bereitstellung sehr großer oder komplexer Modelle für maschinelles Lernen anzupassen und zu optimieren.

Google Kubernetes Engine (GKE)

Inferenz direkt in Ihrem Data Warehouse mit SQL durchführen

Wenn Sie mit SQL arbeiten, können Sie Vorhersagen von KI-Modellen jetzt direkt dort abrufen, wo sich Ihre Daten bereits befinden. So müssen Sie die Daten nicht auf eine separate Plattform verschieben, was Ihren Workflow vereinfacht.

BigQuery ML

Mit BigQuery für Inferenzen können Sie Machine-Learning-Modelle mit einfachen SQL-Befehlen direkt auf Ihre Daten anwenden. So müssen Sie die Daten nicht verschieben und Komplexität und Latenz werden reduziert. Es ist eine sehr effiziente Methode für Batchverarbeitungsaufgaben wie Kundensegmentierung oder Nachfrageprognose, insbesondere wenn Ihre Daten bereits in BigQuery gespeichert sind.