KI-Inferenz ist der „aktive“ Teil der künstlichen Intelligenz. Das ist der Moment, in dem ein trainiertes Modell aufhört zu lernen und anfängt zu arbeiten, indem es sein Wissen in Ergebnisse für die Praxis umwandelt.
Stellen Sie sich das so vor: Wenn das Training einer KI das Erlernen einer neuen Fähigkeit ist, dann ist die Inferenz die tatsächliche Anwendung dieser Fähigkeit, um eine Aufgabe zu erledigen. Sie verarbeitet neue Daten (z. B. ein Foto oder einen Text) und gibt sofort eine Ausgabe aus, z. B. eine Vorhersage, ein generiertes Foto oder eine Entscheidung. Hier liegt der Geschäftswert von KI. Wer KI-Lösungen entwickelt, muss wissen, wie sich Inferenz schnell, skalierbar und kosteneffizient gestalten lässt.
Der vollständige KI-Lebenszyklus umfasst alles von der Datenerhebung bis zum langfristigen Monitoring. Der zentrale Weg eines Modells von der Erstellung bis zur Ausführung lässt sich in drei Hauptphasen unterteilen. Die ersten beiden beziehen sich auf das Lernen, während es beim letzten darum geht, das Gelernte anzuwenden.
In der folgenden Tabelle sind die wichtigsten Unterschiede zusammengefasst:
Schulungen zum Thema KI | KI-Optimierung | KI-Inferenz | KI-Bereitstellung | |
Ziel | Ein neues Modell von Grund auf neu erstellen. | Ein vortrainiertes Modell für eine bestimmte Aufgabe anpassen. | Ein trainiertes Modell für Vorhersagen verwenden | Modell bereitstellen und verwalten, um Inferenzanfragen zu verarbeiten. |
Prozess | Lernen iterativ aus einem großen Dataset | Ein vorhandenes Modell wird mit einem kleineren Dataset verfeinert. | Ein einzelner, schneller „Forward Pass“ neuer Daten. | Modell verpacken und als API bereitstellen |
Daten | Große, historische, gelabelte Datasets. | Kleinere, aufgabenspezifische Datasets. | Live-Daten aus der Praxis, die nicht gelabelt sind. | – |
Geschäftsschwerpunkt | Modellgenauigkeit und -fähigkeiten. | Effizienz und Personalisierung. | Geschwindigkeit (Latenz), Skalierbarkeit und Kosteneffizienz. | Zuverlässigkeit, Skalierbarkeit und Verwaltbarkeit des Inferenzendpunkts. |
Schulungen zum Thema KI
KI-Optimierung
KI-Inferenz
KI-Bereitstellung
Ziel
Ein neues Modell von Grund auf neu erstellen.
Ein vortrainiertes Modell für eine bestimmte Aufgabe anpassen.
Ein trainiertes Modell für Vorhersagen verwenden
Modell bereitstellen und verwalten, um Inferenzanfragen zu verarbeiten.
Prozess
Lernen iterativ aus einem großen Dataset
Ein vorhandenes Modell wird mit einem kleineren Dataset verfeinert.
Ein einzelner, schneller „Forward Pass“ neuer Daten.
Modell verpacken und als API bereitstellen
Daten
Große, historische, gelabelte Datasets.
Kleinere, aufgabenspezifische Datasets.
Live-Daten aus der Praxis, die nicht gelabelt sind.
–
Geschäftsschwerpunkt
Modellgenauigkeit und -fähigkeiten.
Effizienz und Personalisierung.
Geschwindigkeit (Latenz), Skalierbarkeit und Kosteneffizienz.
Zuverlässigkeit, Skalierbarkeit und Verwaltbarkeit des Inferenzendpunkts.
Im Wesentlichen umfasst die KI-Inferenz drei Schritte, bei denen neue Daten in eine nützliche Ausgabe umgewandelt werden.
Sehen wir uns das anhand eines einfachen Beispiels an: ein KI-Modell, das Objekte auf Fotos erkennen soll.
Eine einzelne Inferenz ist zwar schnell, aber Millionen von Nutzern in Echtzeit zu bedienen, erhöht die Latenz und die Kosten und erfordert optimierte Hardware. Auf KI spezialisierte Graphics Processing Units (GPUs) und die Tensor Processing Units von Google sind für diese Aufgaben ausgelegt und können sie effizient erledigen. In Kombination mit der Orchestrierung durch die Google Kubernetes Engine lassen sich so der Durchsatz erhöhen und die Latenz verringern.
Dies ist der gängigste Ansatz, bei dem die Inferenz auf leistungsstarken Remote-Servern in einem Rechenzentrum ausgeführt wird. Die Cloud bietet immense Skalierbarkeit und Rechenressourcen und eignet sich daher ideal für die Verarbeitung riesiger Datensätze und komplexer Modelle. In der Cloud gibt es in der Regel zwei primäre Inferenzmodi:
Bei diesem Ansatz wird die Inferenz direkt auf dem Gerät ausgeführt, auf dem die Daten generiert werden – z. B. auf einem Smartphone oder einem Industriesensor. Da keine Roundtrips zur Cloud erforderlich sind, bietet die Edge-Inferenz einzigartige Vorteile:
Um Ihnen die Wahl des besten Ansatzes für Ihre spezifischen Anforderungen zu erleichtern, finden Sie hier einen kurzen Vergleich der wichtigsten Merkmale und Anwendungsfälle für jeden Typ von KI-Inferenz:
Feature | Batch-Inferenz | Inferenz in Echtzeit | Edge-Inferenz |
Primärer Standort | Cloud-Rechenzentren | Cloud-Rechenzentren | Lokales Gerät (z. B. Smartphone, IoT-Sensor, Roboter) |
Latenz/Reaktionsfähigkeit | Hoch (Vorhersagen werden nach der Verarbeitung des Batches zurückgegeben) | Sehr niedrig (Millisekunden bis Sekunden pro Anfrage) | Extrem niedrig (nahezu sofort, kein Netzwerk-Hop) |
Datenvolumen | Große Datasets (z. B. Terabytes) | Einzelne Ereignisse/Anfragen | Einzelne Ereignisse/Anfragen (auf dem Gerät) |
Datenfluss | Daten werden an die Cloud gesendet, verarbeitet und die Ergebnisse zurückgegeben. | Jede an die Cloud gesendete, verarbeitete und zurückgegebene Anfrage | Daten werden auf dem Gerät verarbeitet, Ergebnisse werden auf dem Gerät verwendet |
Typische Anwendungsfälle | Umfangreiche Dokumentenkategorisierung, Finanzanalyse über Nacht, regelmäßige vorausschauende Wartung | Produktempfehlungen, Chatbots, Live-Übersetzung, Betrugswarnungen in Echtzeit | Autonomes Fahren, intelligente Kameras, Offline-Sprachassistenten, industrielle Qualitätskontrolle |
Hauptvorteile | Kosteneffizient für große, nicht dringende Aufgaben | Sofortige Reaktionsfähigkeit für nutzerorientierte Apps | Minimale Latenz, verbesserter Datenschutz, Offline-Funktionen, geringere Bandbreitenkosten |
Feature
Batch-Inferenz
Inferenz in Echtzeit
Edge-Inferenz
Primärer Standort
Cloud-Rechenzentren
Cloud-Rechenzentren
Lokales Gerät (z. B. Smartphone, IoT-Sensor, Roboter)
Latenz/Reaktionsfähigkeit
Hoch (Vorhersagen werden nach der Verarbeitung des Batches zurückgegeben)
Sehr niedrig (Millisekunden bis Sekunden pro Anfrage)
Extrem niedrig (nahezu sofort, kein Netzwerk-Hop)
Datenvolumen
Große Datasets (z. B. Terabytes)
Einzelne Ereignisse/Anfragen
Einzelne Ereignisse/Anfragen (auf dem Gerät)
Datenfluss
Daten werden an die Cloud gesendet, verarbeitet und die Ergebnisse zurückgegeben.
Jede an die Cloud gesendete, verarbeitete und zurückgegebene Anfrage
Daten werden auf dem Gerät verarbeitet, Ergebnisse werden auf dem Gerät verwendet
Typische Anwendungsfälle
Umfangreiche Dokumentenkategorisierung, Finanzanalyse über Nacht, regelmäßige vorausschauende Wartung
Produktempfehlungen, Chatbots, Live-Übersetzung, Betrugswarnungen in Echtzeit
Autonomes Fahren, intelligente Kameras, Offline-Sprachassistenten, industrielle Qualitätskontrolle
Hauptvorteile
Kosteneffizient für große, nicht dringende Aufgaben
Sofortige Reaktionsfähigkeit für nutzerorientierte Apps
Minimale Latenz, verbesserter Datenschutz, Offline-Funktionen, geringere Bandbreitenkosten
KI-Inferenz verändert Branchen durch neue Automatisierungsgrade, intelligentere Entscheidungsfindung und innovative Anwendungen. Für Entwickler in Unternehmen sind dies einige wichtige Bereiche, in denen Inferenz einen konkreten geschäftlichen Mehrwert bietet:
Die KI-Inferenz bedingt eine Reihe technischer Herausforderungen, darunter die Verwaltung von Latenz, die Kontrolle von Kosten und die Sicherstellung der Skalierbarkeit. Google Cloud bietet einen flexiblen Pfad für die Inferenz, sodass Sie die richtigen Tools basierend auf der Komplexität Ihres Modells, den Leistungsanforderungen und der Betriebskapazität wählen können. Sie können mit vollständig verwalteten Lösungen beginnen und nach und nach eine stärker angepasste Infrastruktur einführen, wenn sich Ihre Anforderungen ändern.
Dieser Ansatz ist ideal für Entwickler aller Erfahrungsstufen, auch für KI-Neulinge, die schnell leistungsstarke KI-Funktionen einbinden möchten. Dazu sind nur einfache API-Aufrufe erforderlich; es müssen keine Modelle oder Infrastrukturen verwaltet werden.
Nutzen Sie die Gemini-Modelle von Google und eine Auswahl an Open-Source-Modellen mit einem einfachen API-Endpunkt. Sie müssen sich nicht um komplexe Aufgaben wie Hosting und Skalierung kümmern, sondern können sich auf Ihre Anwendung konzentrieren und hochwertige Ergebnisse für Aufgaben mit generativer KI erzielen. |
Nutzen Sie die Gemini-Modelle von Google und eine Auswahl an Open-Source-Modellen mit einem einfachen API-Endpunkt. Sie müssen sich nicht um komplexe Aufgaben wie Hosting und Skalierung kümmern, sondern können sich auf Ihre Anwendung konzentrieren und hochwertige Ergebnisse für Aufgaben mit generativer KI erzielen.
Diese Option ist für Entwickler gedacht, die bereits ein benutzerdefiniertes Modell erstellt haben. Sie können dies im verwalteten Dienst von Google Cloud bereitstellen, sodass Sie sich nicht selbst um die komplexe Servereinrichtung oder Orchestrierung kümmern müssen. So können Sie sich auf Ihr Modell konzentrieren statt auf die Infrastruktur.
Vertex AI Prediction ist ein verwalteter Dienst, der Modelle für maschinelles Lernen als skalierbare Endpunkte bereitstellt und Hardwarebeschleuniger wie GPUs für die schnelle Verarbeitung von Echtzeit- und großen Batch-Daten nutzt. | |
Stellen Sie containerisierte Modelle mit Autoscaling auf null und nutzungsabhängiger Abrechnung bereit. Das ist ideal für stark variable, intermittierende Arbeitslasten oder einfache Webdienste. |
Vertex AI Prediction ist ein verwalteter Dienst, der Modelle für maschinelles Lernen als skalierbare Endpunkte bereitstellt und Hardwarebeschleuniger wie GPUs für die schnelle Verarbeitung von Echtzeit- und großen Batch-Daten nutzt.
Stellen Sie containerisierte Modelle mit Autoscaling auf null und nutzungsabhängiger Abrechnung bereit. Das ist ideal für stark variable, intermittierende Arbeitslasten oder einfache Webdienste.
Entwickler und MLOps-Teams erhalten die volle Kontrolle und die nötige Flexibilität, um benutzerdefinierte containerisierte Inferenzdienste, oft mit spezialisierter Hardware, in Cloud- oder Hybridumgebungen bereitzustellen, zu verwalten und zu skalieren.
GKE bietet eine detaillierte Kontrolle über die Hardware, einschließlich CPUs, GPUs und TPUs. Das ist ideal, um Leistung und Kosten der Bereitstellung sehr großer oder komplexer Modelle für maschinelles Lernen anzupassen und zu optimieren. |
GKE bietet eine detaillierte Kontrolle über die Hardware, einschließlich CPUs, GPUs und TPUs. Das ist ideal, um Leistung und Kosten der Bereitstellung sehr großer oder komplexer Modelle für maschinelles Lernen anzupassen und zu optimieren.
Wenn Sie mit SQL arbeiten, können Sie Vorhersagen von KI-Modellen jetzt direkt dort abrufen, wo sich Ihre Daten bereits befinden. So müssen Sie die Daten nicht auf eine separate Plattform verschieben, was Ihren Workflow vereinfacht.
Mit BigQuery für Inferenzen können Sie Machine-Learning-Modelle mit einfachen SQL-Befehlen direkt auf Ihre Daten anwenden. So müssen Sie die Daten nicht verschieben und Komplexität und Latenz werden reduziert. Es ist eine sehr effiziente Methode für Batchverarbeitungsaufgaben wie Kundensegmentierung oder Nachfrageprognose, insbesondere wenn Ihre Daten bereits in BigQuery gespeichert sind. |
Mit BigQuery für Inferenzen können Sie Machine-Learning-Modelle mit einfachen SQL-Befehlen direkt auf Ihre Daten anwenden. So müssen Sie die Daten nicht verschieben und Komplexität und Latenz werden reduziert. Es ist eine sehr effiziente Methode für Batchverarbeitungsaufgaben wie Kundensegmentierung oder Nachfrageprognose, insbesondere wenn Ihre Daten bereits in BigQuery gespeichert sind.
Möchten Sie Ihre KI-Inferenz-Fähigkeiten auf die nächste Stufe bringen? Hier sind einige hilfreiche Ressourcen, die Ihnen den Einstieg erleichtern:
Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“ Produkte kennenzulernen.