KI-Inferenz ist der „aktive“ Teil der künstlichen Intelligenz. Das ist der Moment, in dem ein trainiertes Modell aufhört zu lernen und anfängt zu arbeiten, indem es sein Wissen in Ergebnisse für die Praxis umwandelt.
Stellen Sie sich das so vor: Wenn das Training einer KI das Erlernen einer neuen Fähigkeit ist, dann ist die Inferenz die tatsächliche Anwendung dieser Fähigkeit, um eine Aufgabe zu erledigen. Sie verarbeitet neue Daten (z. B. ein Foto oder einen Text) und gibt sofort eine Ausgabe aus, z. B. eine Vorhersage, ein generiertes Foto oder eine Entscheidung. Hier liegt der Geschäftswert von KI. Wer KI-Lösungen entwickelt, muss wissen, wie sich Inferenz schnell, skalierbar und kosteneffizient gestalten lässt. Ein Entwickler in einem Unternehmen könnte beispielsweise KI-Inferenz in der Google Kubernetes Engine (GKE) verwenden, um ein System zu entwickeln, das Kundenkäufe in Echtzeit analysiert und personalisierte Rabatte an der Kasse anbietet. So lassen sich Umsatz und Kundenzufriedenheit steigern.
Der vollständige KI-Lebenszyklus umfasst alles von der Datenerhebung bis zum langfristigen Monitoring. Der zentrale Weg eines Modells von der Erstellung bis zur Ausführung lässt sich in drei Hauptphasen unterteilen. Die ersten beiden beziehen sich auf das Lernen, während es beim letzten darum geht, das Gelernte anzuwenden.
In der folgenden Tabelle sind die wichtigsten Unterschiede zusammengefasst:
Schulungen zum Thema KI | KI-Optimierung | KI-Inferenz | KI-Bereitstellung | |
Ziel | Ein neues Modell von Grund auf neu erstellen. | Ein vortrainiertes Modell für eine bestimmte Aufgabe anpassen. | Ein trainiertes Modell für Vorhersagen verwenden | Modell bereitstellen und verwalten, um Inferenzanfragen zu verarbeiten. |
Prozess | Lernen iterativ aus einem großen Dataset | Ein vorhandenes Modell wird mit einem kleineren Dataset verfeinert. | Ein einzelner, schneller „Forward Pass“ neuer Daten. | Modell verpacken und als API bereitstellen |
Daten | Große, historische, gelabelte Datasets. | Kleinere, aufgabenspezifische Datasets. | Live-Daten aus der Praxis, die nicht gelabelt sind. | – |
Geschäftsschwerpunkt | Modellgenauigkeit und -fähigkeiten. | Effizienz und Personalisierung. | Geschwindigkeit (Latenz), Skalierbarkeit und Kosteneffizienz. | Zuverlässigkeit, Skalierbarkeit und Verwaltbarkeit des Inferenzendpunkts. |
Schulungen zum Thema KI
KI-Optimierung
KI-Inferenz
KI-Bereitstellung
Ziel
Ein neues Modell von Grund auf neu erstellen.
Ein vortrainiertes Modell für eine bestimmte Aufgabe anpassen.
Ein trainiertes Modell für Vorhersagen verwenden
Modell bereitstellen und verwalten, um Inferenzanfragen zu verarbeiten.
Prozess
Lernen iterativ aus einem großen Dataset
Ein vorhandenes Modell wird mit einem kleineren Dataset verfeinert.
Ein einzelner, schneller „Forward Pass“ neuer Daten.
Modell verpacken und als API bereitstellen
Daten
Große, historische, gelabelte Datasets.
Kleinere, aufgabenspezifische Datasets.
Live-Daten aus der Praxis, die nicht gelabelt sind.
–
Geschäftsschwerpunkt
Modellgenauigkeit und -fähigkeiten.
Effizienz und Personalisierung.
Geschwindigkeit (Latenz), Skalierbarkeit und Kosteneffizienz.
Zuverlässigkeit, Skalierbarkeit und Verwaltbarkeit des Inferenzendpunkts.
Im Wesentlichen umfasst die KI-Inferenz drei Schritte, bei denen neue Daten in eine nützliche Ausgabe umgewandelt werden.
Sehen wir uns das anhand eines einfachen Beispiels an: ein KI-Modell, das Objekte auf Fotos erkennen soll.
Eine einzelne Inferenz ist zwar schnell, aber Millionen von Nutzern in Echtzeit zu bedienen, erhöht die Latenz und die Kosten und erfordert optimierte Hardware. Spezielle Graphics Processing Units (GPUs) und Tensor Processing Units von Google sind für diese Aufgaben ausgelegt und können sie effizient erledigen. In Kombination mit der Orchestrierung durch die Google Kubernetes Engine lassen sich so der Durchsatz erhöhen und die Latenz verringern.
Dies ist der gängigste Ansatz, bei dem die Inferenz auf leistungsstarken Remote-Servern in einem Rechenzentrum ausgeführt wird. Die Cloud bietet immense Skalierbarkeit und Rechenressourcen und eignet sich daher ideal für die Verarbeitung riesiger Datensätze und komplexer Modelle. In der Cloud gibt es in der Regel zwei primäre Inferenzmodi:
Bei diesem Ansatz wird die Inferenz direkt auf dem Gerät ausgeführt, auf dem die Daten generiert werden – das kann ein Smartphone oder ein Industriesensor sein. Da keine Roundtrips zur Cloud erforderlich sind, bietet die Edge-Inferenz einzigartige Vorteile:
Um Ihnen die Wahl des besten Ansatzes für Ihre spezifischen Anforderungen zu erleichtern, finden Sie hier einen kurzen Vergleich der wichtigsten Merkmale und Anwendungsfälle für jeden Typ von KI-Inferenz:
Feature | Batch-Inferenz | Inferenz in Echtzeit | Edge-Inferenz |
Primärer Standort | Cloud-Rechenzentren | Cloud-Rechenzentren | Lokales Gerät (z. B. Smartphone, IoT-Sensor, Roboter) |
Latenz/Reaktionsfähigkeit | Hoch (Vorhersagen werden nach der Verarbeitung des Batches zurückgegeben) | Sehr niedrig (Millisekunden bis Sekunden pro Anfrage) | Extrem niedrig (nahezu sofort, kein Netzwerk-Hop) |
Datenvolumen | Große Datasets (z. B. Terabytes) | Einzelne Ereignisse/Anfragen | Einzelne Ereignisse/Anfragen (auf dem Gerät) |
Datenfluss | Daten werden an die Cloud gesendet, verarbeitet und die Ergebnisse zurückgegeben. | Jede an die Cloud gesendete, verarbeitete und zurückgegebene Anfrage | Daten werden auf dem Gerät verarbeitet, Ergebnisse werden auf dem Gerät verwendet |
Typische Anwendungsfälle | Umfangreiche Dokumentenkategorisierung, Finanzanalyse über Nacht, regelmäßige vorausschauende Wartung | Produktempfehlungen, Chatbots, Live-Übersetzung, Betrugswarnungen in Echtzeit | Autonomes Fahren, intelligente Kameras, Offline-Sprachassistenten, industrielle Qualitätskontrolle |
Hauptvorteile | Kosteneffizient für große, nicht dringende Aufgaben | Sofortige Reaktionsfähigkeit für nutzerorientierte Apps | Minimale Latenz, verbesserter Datenschutz, Offline-Funktionen, geringere Bandbreitenkosten |
Feature
Batch-Inferenz
Inferenz in Echtzeit
Edge-Inferenz
Primärer Standort
Cloud-Rechenzentren
Cloud-Rechenzentren
Lokales Gerät (z. B. Smartphone, IoT-Sensor, Roboter)
Latenz/Reaktionsfähigkeit
Hoch (Vorhersagen werden nach der Verarbeitung des Batches zurückgegeben)
Sehr niedrig (Millisekunden bis Sekunden pro Anfrage)
Extrem niedrig (nahezu sofort, kein Netzwerk-Hop)
Datenvolumen
Große Datasets (z. B. Terabytes)
Einzelne Ereignisse/Anfragen
Einzelne Ereignisse/Anfragen (auf dem Gerät)
Datenfluss
Daten werden an die Cloud gesendet, verarbeitet und die Ergebnisse zurückgegeben.
Jede an die Cloud gesendete, verarbeitete und zurückgegebene Anfrage
Daten werden auf dem Gerät verarbeitet, Ergebnisse werden auf dem Gerät verwendet
Typische Anwendungsfälle
Umfangreiche Dokumentenkategorisierung, Finanzanalyse über Nacht, regelmäßige vorausschauende Wartung
Produktempfehlungen, Chatbots, Live-Übersetzung, Betrugswarnungen in Echtzeit
Autonomes Fahren, intelligente Kameras, Offline-Sprachassistenten, industrielle Qualitätskontrolle
Hauptvorteile
Kosteneffizient für große, nicht dringende Aufgaben
Sofortige Reaktionsfähigkeit für nutzerorientierte Apps
Minimale Latenz, verbesserter Datenschutz, Offline-Funktionen, geringere Bandbreitenkosten
KI-Inferenz verändert Branchen durch neue Automatisierungsgrade, intelligentere Entscheidungsfindung und innovative Anwendungen. Für Entwickler in Unternehmen sind dies einige wichtige Bereiche, in denen Inferenz einen konkreten geschäftlichen Mehrwert bietet:
Google Cloud bietet eine umfassende Suite von Tools und Diensten, mit denen Entwickler und Unternehmen KI-Inferenz-Arbeitslasten effizient und in großem Umfang erstellen, bereitstellen und verwalten können. Inferenzfunktionen sind in viele Angebote tief integriert:
Google Cloud-Produkt | Unterstützter Inferenzansatz | Ideal, wenn du | Beispiel für einen Anwendungsfall für die Inferenz |
Alle Inferenztypen (Cloud und Hybrid) | Sie erhalten die volle Kontrolle und Flexibilität, um benutzerdefinierte containerisierte Inferenzdienste, oft mit spezialisierter Hardware, in Cloud- oder Hybridumgebungen bereitzustellen, zu verwalten und zu skalieren. | Ein maßgeschneidertes KI-Modell für die Echtzeit-Anomalieerkennung in einem komplexen industriellen System bereitstellen und skalieren | |
Cloud-Inferenz in Echtzeit (serverlos) | Stellen Sie containerisierte Modelle mit Autoscaling auf null und nutzungsabhängiger Abrechnung bereit. Das ist ideal für stark variable, intermittierende Arbeitslasten oder einfache Webdienste. | Ein kleines bis mittelgroßes Modell für eine Webanwendung bereitstellen, bei der der Traffic stark schwankt, und dabei Kosteneffizienz gewährleisten. | |
Cloud-Inferenz in Echtzeit und im Batch-Modus | Flexible, leistungsstarke Beschleunigung für eine Vielzahl von KI-Modellen und Frameworks. | Hochauflösende Bilder für medizinische Diagnosen schnell verarbeiten oder komplexe Finanzmodelle beschleunigen | |
Cloud-Batch-Inferenz (Data Warehouse) | Sie können Inferenz direkt mit Daten durchführen, die sich bereits in Ihrem Data Warehouse befinden, und zwar mit SQL. So müssen Sie keine Daten verschieben. | Kundenabwanderung direkt anhand Ihrer CRM-Daten in BigQuery vorhersagen. | |
Cloud-Inferenz in Echtzeit (bestimmte Aufgaben) | Sie können ganz einfach fortschrittliche KI-Funktionen (wie Bilderkennung, Sprachverarbeitung und Spracherkennung) in Anwendungen einbetten, ohne Modelle entwickeln oder trainieren zu müssen. | Sie können Kunden-Chatnachrichten automatisch in Echtzeit übersetzen lassen oder die Stimmung in Social-Media-Beiträgen analysieren. | |
Cloud-Inferenz in Echtzeit und im Batch-Modus (große Modelle) | Maximale Leistung und Kosteneffizienz beim Bereitstellen sehr großer, komplexer Deep-Learning-Modelle, insbesondere Large Language Models (LLMs). | Echtzeitantworten eines hochmodernen Chatbots auf Basis generativer KI ermöglichen | |
Edge-Lösungen (wie Coral, GDC Edge) | Edge-Inferenz | Modelle direkt auf Geräten ausführen, um eine extrem niedrige Latenz, einen verbesserten Datenschutz oder eine Offline-Funktionalität zu ermöglichen. | Sofortige Objekterkennung auf einer intelligenten Kamera, ohne dass Videos in die Cloud gesendet werden müssen. |
Datenvorbereitung für Batch-Cloud-Inferenz | Effiziente Verarbeitung und Vorbereitung riesiger Datenmengen für umfangreiche Batch-Inferenzjobs | Petabyte an Sensordaten vorverarbeiten, bevor sie in ein Modell für vorausschauende Wartung eingespeist werden. |
Google Cloud-Produkt
Unterstützter Inferenzansatz
Ideal, wenn du
Beispiel für einen Anwendungsfall für die Inferenz
Alle Inferenztypen (Cloud und Hybrid)
Sie erhalten die volle Kontrolle und Flexibilität, um benutzerdefinierte containerisierte Inferenzdienste, oft mit spezialisierter Hardware, in Cloud- oder Hybridumgebungen bereitzustellen, zu verwalten und zu skalieren.
Ein maßgeschneidertes KI-Modell für die Echtzeit-Anomalieerkennung in einem komplexen industriellen System bereitstellen und skalieren
Cloud-Inferenz in Echtzeit (serverlos)
Stellen Sie containerisierte Modelle mit Autoscaling auf null und nutzungsabhängiger Abrechnung bereit. Das ist ideal für stark variable, intermittierende Arbeitslasten oder einfache Webdienste.
Ein kleines bis mittelgroßes Modell für eine Webanwendung bereitstellen, bei der der Traffic stark schwankt, und dabei Kosteneffizienz gewährleisten.
Cloud-Inferenz in Echtzeit und im Batch-Modus
Flexible, leistungsstarke Beschleunigung für eine Vielzahl von KI-Modellen und Frameworks.
Hochauflösende Bilder für medizinische Diagnosen schnell verarbeiten oder komplexe Finanzmodelle beschleunigen
Cloud-Batch-Inferenz (Data Warehouse)
Sie können Inferenz direkt mit Daten durchführen, die sich bereits in Ihrem Data Warehouse befinden, und zwar mit SQL. So müssen Sie keine Daten verschieben.
Kundenabwanderung direkt anhand Ihrer CRM-Daten in BigQuery vorhersagen.
Cloud-Inferenz in Echtzeit (bestimmte Aufgaben)
Sie können ganz einfach fortschrittliche KI-Funktionen (wie Bilderkennung, Sprachverarbeitung und Spracherkennung) in Anwendungen einbetten, ohne Modelle entwickeln oder trainieren zu müssen.
Sie können Kunden-Chatnachrichten automatisch in Echtzeit übersetzen lassen oder die Stimmung in Social-Media-Beiträgen analysieren.
Cloud-Inferenz in Echtzeit und im Batch-Modus (große Modelle)
Maximale Leistung und Kosteneffizienz beim Bereitstellen sehr großer, komplexer Deep-Learning-Modelle, insbesondere Large Language Models (LLMs).
Echtzeitantworten eines hochmodernen Chatbots auf Basis generativer KI ermöglichen
Edge-Lösungen (wie Coral, GDC Edge)
Edge-Inferenz
Modelle direkt auf Geräten ausführen, um eine extrem niedrige Latenz, einen verbesserten Datenschutz oder eine Offline-Funktionalität zu ermöglichen.
Sofortige Objekterkennung auf einer intelligenten Kamera, ohne dass Videos in die Cloud gesendet werden müssen.
Datenvorbereitung für Batch-Cloud-Inferenz
Effiziente Verarbeitung und Vorbereitung riesiger Datenmengen für umfangreiche Batch-Inferenzjobs
Petabyte an Sensordaten vorverarbeiten, bevor sie in ein Modell für vorausschauende Wartung eingespeist werden.
Vertex AI ist die einheitliche KI-Plattform von Google Cloud. Sie bietet umfassende Tools zum Erstellen, Bereitstellen und Verwalten von ML-Modellen und ist damit der Dienst der Wahl für die meisten cloudbasierten Inferenzen.
Vertex AI-Feature | Inferenzansatz | Ideal, wenn du | Beispiel für einen Anwendungsfall für die Inferenz |
Cloud-Inferenz in Echtzeit | Benutzerdefinierte Modelle bereitstellen und Echtzeitvorhersagen mit niedriger Latenz von einem verwalteten Endpunkt abrufen. | Empfehlen Sie Nutzern, die eine Website besuchen, sofort Produkte. | |
Cloud-Batch-Inferenz | Große Datasets kostengünstig verarbeiten, ohne dass Echtzeitergebnisse erforderlich sind. | Analysieren Sie alle Kundentransaktionen vom Vortag, um Betrugsmuster zu erkennen. | |
Cloud-Inferenz in Echtzeit und im Batch-Modus (generative KI) | Sie können leistungsstarke vortrainierte Modelle für häufige oder generative KI-Aufgaben schnell nutzen, ohne sie von Grund auf trainieren zu müssen. | Sie können Marketingtexte erstellen, lange Dokumente zusammenfassen oder Code-Snippets generieren. |
Vertex AI-Feature
Inferenzansatz
Ideal, wenn du
Beispiel für einen Anwendungsfall für die Inferenz
Cloud-Inferenz in Echtzeit
Benutzerdefinierte Modelle bereitstellen und Echtzeitvorhersagen mit niedriger Latenz von einem verwalteten Endpunkt abrufen.
Empfehlen Sie Nutzern, die eine Website besuchen, sofort Produkte.
Cloud-Batch-Inferenz
Große Datasets kostengünstig verarbeiten, ohne dass Echtzeitergebnisse erforderlich sind.
Analysieren Sie alle Kundentransaktionen vom Vortag, um Betrugsmuster zu erkennen.
Cloud-Inferenz in Echtzeit und im Batch-Modus (generative KI)
Sie können leistungsstarke vortrainierte Modelle für häufige oder generative KI-Aufgaben schnell nutzen, ohne sie von Grund auf trainieren zu müssen.
Sie können Marketingtexte erstellen, lange Dokumente zusammenfassen oder Code-Snippets generieren.
Möchten Sie Ihre KI-Inferenz-Fähigkeiten auf die nächste Stufe bringen? Hier sind einige hilfreiche Ressourcen, die Ihnen den Einstieg erleichtern:
Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“-Produkte kennenzulernen.