Was ist ein KI-Agent?

KI-Agenten sind Softwaresysteme, die KI nutzen, um im Namen der Nutzerinnen und Nutzer Ziele zu verfolgen und Aufgaben zu erledigen. Sie zeigen Denkvermögen, Planung und Gedächtnis und haben ein gewisses Maß an Autonomie, um Entscheidungen zu treffen, zu lernen und sich anzupassen.

Ihre Fähigkeiten sind zum großen Teil durch die multimodale Kapazität von generativer KI und KI-Foundation Models möglich. KI-Agenten können multimodale Informationen wie Text, Sprache, Video, Audio, Code und mehr gleichzeitig verarbeiten, sich unterhalten, Schlussfolgerungen ziehen, lernen und Entscheidungen treffen. Sie können im Laufe der Zeit dazulernen und Transaktionen und Geschäftsprozesse erleichtern. Agents können mit anderen Agents zusammenarbeiten, um komplexere Workflows zu koordinieren und auszuführen.

Wichtige Funktionen eines KI-Agenten

Wie oben erklärt, sind die wichtigsten Funktionen eines KI-Agenten das Schlussfolgern und das Handeln (wie im ReAct-Framework beschrieben). Im Laufe der Zeit sind jedoch weitere Funktionen hinzugekommen.

  • Denken: Dieser kognitive Kernprozess umfasst die Verwendung von Logik und verfügbaren Informationen, um Schlussfolgerungen zu ziehen, Vermutungen anzustellen und Probleme zu lösen. KI-Agenten mit starken Begründungsfähigkeiten können Daten analysieren, Muster erkennen und auf der Grundlage von Beweisen und Kontext fundierte Entscheidungen treffen.
  • Handeln: Die Fähigkeit, auf der Grundlage von Entscheidungen, Plänen oder externem Input zu handeln oder Aufgaben auszuführen, ist für KI-Agenten entscheidend, um mit ihrer Umgebung zu interagieren und Ziele zu erreichen. Dies kann im Falle von KI mit Körperlichkeit physische Aktionen umfassen oder digitale Aktionen wie das Senden von Nachrichten, das Aktualisieren von Daten oder das Auslösen anderer Prozesse.
  • Beobachten: Es ist wichtig, dass KI-Agenten Informationen über ihre Umgebung oder Situation durch Wahrnehmung oder Sensorik sammeln, um den Kontext zu verstehen und fundierte Entscheidungen zu treffen. Dabei können verschiedene Formen der Wahrnehmung zum Einsatz kommen, wie maschinelles Sehen, Natural Language Processing oder die Analyse von Sensordaten.
  • Planung: Ein strategischer Plan zur Erreichung von Zielen ist ein wichtiger Aspekt intelligenten Verhaltens. KI-Agenten mit Planungsfunktionen können die erforderlichen Schritte ermitteln, mögliche Aktionen bewerten und basierend auf den verfügbaren Informationen und den gewünschten Ergebnissen die beste Vorgehensweise auswählen. Dabei ist es oft wichtig, zukünftige Zustände zu antizipieren und mögliche Hindernisse zu berücksichtigen.
  • Zusammenarbeit: In komplexen und dynamischen Umgebungen wird es immer wichtiger, effektiv mit anderen zusammenzuarbeiten, sei es mit Menschen oder anderen KI-Agenten, um ein gemeinsames Ziel zu erreichen. Zusammenarbeit erfordert Kommunikation, Koordination und die Fähigkeit, die Sichtweisen anderer zu verstehen und zu respektieren.
  • Selbstoptimierung: Die Fähigkeit zur Selbstoptimierung und Anpassung ist ein Merkmal fortschrittlicher KI-Systeme. KI-Agents mit selbstoptimierenden Funktionen können aus Erfahrungen lernen, ihr Verhalten basierend auf Feedback anpassen und ihre Leistung und Fähigkeiten im Laufe der Zeit kontinuierlich verbessern. Dazu können Techniken des maschinellen Lernens, Optimierungsalgorithmen oder andere Formen der Selbstmodifikation gehören.

Was ist der Unterschied zwischen KI-Agenten, KI-Assistenten und Bots?

KI-Assistenten sind KI-Agents, die als Anwendungen oder Produkte konzipiert sind, um direkt mit Nutzern zusammenzuarbeiten und Aufgaben auszuführen, indem sie natürliche menschliche Sprache und Eingaben verstehen und darauf reagieren. Sie können mit der Aufsicht der Nutzerinnen und Nutzer in ihrem Namen handeln und Entscheidungen treffen.

KI-gestützte Assistenten sind oft in das verwendete Produkt eingebettet. Ein wichtiges Merkmal ist die Interaktion zwischen Assistent und Nutzer bei den verschiedenen Schritten der Aufgabe. Der Assistent reagiert auf Anfragen oder Aufforderungen des Nutzers und kann Aktionen empfehlen, die Entscheidung trifft aber der Nutzer.

KI-Agent

KI-Assistent

Bot

Zweck

Aufgaben autonom und proaktiv ausführen

Nutzer bei Aufgaben unterstützen

Automatisierung einfacher Aufgaben oder Unterhaltungen

Funktionen

Kann komplexe, mehrstufige Aktionen ausführen, lernt und passt sich an, kann Entscheidungen unabhängig treffen

Reagiert auf Anfragen oder Prompts, liefert Informationen und führt einfache Aufgaben aus; kann Aktionen empfehlen, aber der Nutzer trifft die Entscheidungen

Folgt vordefinierten Regeln; eingeschränktes Lernen; grundlegende Interaktionen

Interaktion

Proaktiv und zielorientiert

Reaktiv; reagiert auf Nutzeranfragen

Reaktiv; reagiert auf Trigger oder Befehle

KI-Agent

KI-Assistent

Bot

Zweck

Aufgaben autonom und proaktiv ausführen

Nutzer bei Aufgaben unterstützen

Automatisierung einfacher Aufgaben oder Unterhaltungen

Funktionen

Kann komplexe, mehrstufige Aktionen ausführen, lernt und passt sich an, kann Entscheidungen unabhängig treffen

Reagiert auf Anfragen oder Prompts, liefert Informationen und führt einfache Aufgaben aus; kann Aktionen empfehlen, aber der Nutzer trifft die Entscheidungen

Folgt vordefinierten Regeln; eingeschränktes Lernen; grundlegende Interaktionen

Interaktion

Proaktiv und zielorientiert

Reaktiv; reagiert auf Nutzeranfragen

Reaktiv; reagiert auf Trigger oder Befehle

Wichtige Unterschiede

  • Autonomie: KI-Agenten haben den höchsten Grad an Autonomie und können unabhängig arbeiten und Entscheidungen treffen, um ein Ziel zu erreichen. KI-gestützte Assistenten sind weniger autonom und benötigen Nutzereingaben und -anweisungen. Bots sind am wenigsten autonom und folgen in der Regel vorprogrammierten Regeln.
  • Komplexität: KI-Agents sind für komplexe Aufgaben und Workflows konzipiert, während KI-Assistenten und -Bots besser für einfache Aufgaben und Interaktionen geeignet sind.
  • Lernen: KI-Agenten nutzen oft maschinelles Lernen, um sich anzupassen und ihre Leistung im Laufe der Zeit zu verbessern. KI-gestützte Assistenten können sich in gewissem Maße weiterentwickeln, während Bots in der Regel nur eingeschränkt oder gar nicht dazulernen.

Wie funktionieren KI-Agents?

Jeder Agent definiert seine Rolle, Persönlichkeit und seinen Kommunikationsstil, einschließlich spezifischer Anweisungen und Beschreibungen der verfügbaren Tools. 

  • Persona: Eine gut definierte Persona ermöglicht es einem Agenten, einen konsistenten Charakter beizubehalten und sich so zu verhalten, wie es seiner zugewiesenen Rolle entspricht. Dabei entwickelt er sich weiter, wenn er Erfahrungen sammelt und mit seiner Umgebung interagiert.
  • Speicher: Der Agent ist im Allgemeinen mit Kurzzeit-, Langzeit-, Konsens- und episodischem Gedächtnis ausgestattet. Kurzzeitgedächtnis für unmittelbare Interaktionen, Langzeitgedächtnis für historische Daten und Unterhaltungen, episodisches Gedächtnis für vergangene Interaktionen und Konsensgedächtnis für Informationen, die zwischen den Agents geteilt werden. Der Agent kann den Kontext aufrechterhalten, aus Erfahrungen lernen und die Leistung verbessern, indem er sich an frühere Interaktionen erinnert und sich an neue Situationen anpasst.
  • Tools: Tools sind Funktionen oder externe Ressourcen, die ein Agent nutzen kann, um mit seiner Umgebung zu interagieren und seine Fähigkeiten zu erweitern. Sie ermöglichen es den Agenten, komplexe Aufgaben auszuführen, indem sie auf Informationen zugreifen, Daten manipulieren oder externe Systeme steuern. Sie können anhand ihrer Benutzeroberfläche kategorisiert werden, einschließlich physischer, grafischer und programmbasierter Oberflächen. Beim Tool-Training lernen die Agents, wie sie diese Tools effektiv nutzen können, indem sie ihre Funktionen und den Kontext, in dem sie angewendet werden sollten, verstehen.
  • Modell: Large Language Models (LLMs) bilden die Grundlage für den Aufbau von KI-Agenten und verleihen ihnen die Fähigkeit, zu verstehen, zu schlussfolgern und zu handeln. LLMs fungieren als „Gehirn“ eines Agents und ermöglichen ihm, Sprache zu verarbeiten und zu generieren, während andere Komponenten das Schlussfolgern und Handeln unterstützen.

Welche Arten von Agents gibt es in der KI?

KI-Agenten können auf verschiedene Arten kategorisiert werden, je nach ihren Fähigkeiten, Rollen und Umgebungen. Hier sind einige wichtige Kategorien von Agenten:

Es gibt verschiedene Definitionen von Agent-Typen und -Kategorien. 

Basierend auf Interaktionen

Eine Möglichkeit, Agenten zu kategorisieren, ist die Art und Weise, wie sie mit Nutzern interagieren. Einige Agenten führen direkte Unterhaltungen, während andere im Hintergrund arbeiten und Aufgaben ohne direkte Nutzerinteraktion ausführen: 

  • Interaktive Partner (auch bekannt als Surface-Agents) – Sie unterstützen uns bei Aufgaben wie Kundenservice, Gesundheitswesen, Bildung und wissenschaftlicher Forschung und bieten personalisierten und intelligenten Support. Konversations-Agents können mit Menschen über Fragen und Antworten, Smalltalk und allgemeines Wissen interagieren. Sie werden in der Regel durch Nutzeranfragen ausgelöst und erfüllen Nutzeranfragen oder Transaktionen.
  • Autonome Hintergrundprozesse (auch als Hintergrund-Agenten bezeichnet) – Sie arbeiten im Hintergrund, um Routineaufgaben zu automatisieren, Daten zu analysieren, um Erkenntnisse zu gewinnen, Prozesse zu optimieren, um die Effizienz zu steigern, und potenzielle Probleme proaktiv zu erkennen und zu beheben. Dazu gehören Workflow-Agents. Sie erfordern nur eine begrenzte oder gar keine menschliche Interaktion, werden in der Regel durch Ereignisse ausgelöst und führen Aufgaben in einer Warteschlange oder Aufgabenketten aus.

Basierend auf der Anzahl der Agenten

  • Einzelner Agent: Sie arbeiten unabhängig voneinander, um ein bestimmtes Ziel zu erreichen. Sie nutzen externe Tools und Ressourcen, um Aufgaben zu erledigen, und verbessern so ihre funktionalen Fähigkeiten in verschiedenen Umgebungen. Sie eignen sich am besten für klar definierte Aufgaben, die nicht die Zusammenarbeit mit anderen KI-Agents erfordern. Kann nur ein Foundation Model für die Verarbeitung verarbeiten.
  • Multi-Agent-Systeme: Mehrere KI-Agenten, die zusammenarbeiten oder gegeneinander antreten, um ein gemeinsames oder individuelle Ziele zu erreichen. Diese Systeme nutzen die unterschiedlichen Fähigkeiten und Rollen der einzelnen Agenten, um komplexe Aufgaben zu bewältigen. Multi-Agent-Systeme können menschliches Verhalten wie zwischenmenschliche Kommunikation in interaktiven Szenarien simulieren. Jeder Agent kann verschiedene Basismodelle haben, die am besten zu seinen Anforderungen passen.

Vorteile von KI-Agents

KI-Agenten können die Fähigkeiten von Sprachmodellen verbessern, indem sie Autonomie, Aufgabenautomatisierung und die Fähigkeit zur Interaktion mit der realen Welt durch Werkzeuge und Verkörperung bereitstellen.

Erhöhte Produktivität: Kundenservicemitarbeiter können Aufgaben wie Spezialisten aufteilen und so insgesamt mehr erledigen.

Gleichzeitige Ausführung: Agenten können gleichzeitig an verschiedenen Dingen arbeiten, ohne sich gegenseitig zu behindern.

Automatisierung: Bots übernehmen wiederkehrende Aufgaben, sodass Menschen sich auf kreativere Arbeit konzentrieren können.

Zusammenarbeit: Mitarbeiter können gemeinsam arbeiten, Ideen austauschen und voneinander lernen, was zu besseren Entscheidungen führt.

Anpassungsfähigkeit: Mitarbeiter können ihre Pläne und Strategien an sich ändernde Situationen anpassen.

Robustes Schlussfolgern: Durch Diskussionen und Feedback können sich Agents in ihrer Argumentation verbessern und Fehler vermeiden.

Komplexe Problemlösungen: Agenten können sich zusammenschließen, um herausfordernde Probleme aus der realen Welt zu lösen.

Kommunikation in natürlicher Sprache: Die Agenten können menschliche Sprache verstehen und verwenden, um mit Menschen und anderen Agenten zu interagieren.

Toolnutzung: Agenten können mit der Außenwelt interagieren, indem sie Tools verwenden und auf Informationen zugreifen.

Lernen und Selbstverbesserung: Die Agenten lernen aus ihren Erfahrungen und werden mit der Zeit immer besser.

Realistische Simulationen: Agenten können menschliches soziales Verhalten nachahmen, z. B. Beziehungen aufbauen und Informationen austauschen.

Auftretendes Verhalten: Komplexe soziale Interaktionen können aus den Interaktionen einzelner Agents entstehen.

Herausforderungen bei der Verwendung von KI-Agents

KI-Agents bieten viele Vorteile, aber auch einige Herausforderungen:

Aufgaben, die ein hohes Maß an Empathie und emotionaler Intelligenz erfordern oder die eine komplexe menschliche Interaktion und soziale Dynamik erfordern  – KI-Agents können mit nuancierten menschlichen Emotionen Probleme haben. Aufgaben wie Therapie, Sozialarbeit oder Konfliktlösung erfordern ein Maß an emotionalem Verständnis und Empathie, das KI derzeit fehlt. Sie können in komplexen sozialen Situationen, in denen es darum geht, unausgesprochene Signale zu verstehen, ins Straucheln geraten.

Situationen mit hohem ethischen Risiko – KI-Agenten können Entscheidungen auf der Grundlage von Daten treffen, aber ihnen fehlt der moralische Kompass und das Urteilsvermögen, das für ethisch komplexe Situationen erforderlich ist. Dazu gehören Bereiche wie Strafverfolgung, Gesundheitswesen (Diagnose und Behandlung) und gerichtliche Entscheidungsfindung.   

Domänen mit unvorhersehbaren physischen Umgebungen – KI-Agenten können in sehr dynamischen und unvorhersehbaren physischen Umgebungen, in denen Anpassungen in Echtzeit und komplexe motorische Fähigkeiten erforderlich sind, Schwierigkeiten haben. Dazu gehören Aufgaben wie Operationen, bestimmte Arten von Bauarbeiten und Katastrophenhilfe.

Ressourcenintensive Anwendungen – Die Entwicklung und Bereitstellung ausgefeilter KI-Agenten kann rechenintensiv sein und erhebliche Ressourcen erfordern. Daher sind sie möglicherweise nicht für kleinere Projekte oder Organisationen mit begrenztem Budget geeignet.

KI-Agents mit Cloud Run bereitstellen, um Skalierbarkeit und Effizienz zu steigern

KI-Agents benötigen flexible Rechenleistung für Schlussfolgerungen, Planung und Toolnutzung und eignen sich daher hervorragend für Cloud Run. Mit dieser vollständig verwalteten serverlosen Plattform können Sie den Code Ihres Agenten – oft in einem Container verpackt – als skalierbaren, zuverlässigen Dienst oder Job bereitstellen. Bei diesem Ansatz wird die Infrastrukturverwaltung abstrahiert, sodass sich die Entwickler auf die Verfeinerung der Agentenlogik konzentrieren können.

Cloud Run bietet mehrere Funktionen, die die Architektur und die Anforderungen komplexer KI-Agents direkt unterstützen:

  • Skalierbarkeit und Kosteneffizienz: Cloud Run skaliert die Anzahl der Container-Instanzen automatisch, um Spitzenlasten zu bewältigen, und kann sie bei Inaktivität des Agents auf null reduzieren. Das bedeutet, dass Sie nur für die Rechenressourcen zahlen, die während der aktiven Ausführung des Agents verbraucht werden. Das macht Gemini Agents zu einer kosteneffizienten Lösung für zielorientierte, intermittierende Arbeitslasten.
  • Agent-Orchestrierung und -Bereitstellung: Die Kernlogik des Agents, die Modellaufrufe, die Toolauswahl und den Reasoning-Prozess verwaltet, wird als Cloud Run-Dienst ausgeführt. Dieser Dienst bietet einen stabilen HTTPS-Endpunkt, sodass der Agent über eine API für nutzerorientierte Anwendungen oder für die Kommunikation mit anderen Agents leicht zugänglich ist.
  • Agent-to-Agent oder A2A: Frameworks wie das Agent Development Kit (ADK) sind so konzipiert, dass sie sich nahtlos in Cloud Run einbinden lassen und so eine einfache Bereitstellung ermöglichen.

Mit der sicheren, automatisch skalierbaren und flexiblen Umgebung von Cloud Run können Unternehmen komplexe Einzel- oder Mehrfachagentensysteme effizient operationalisieren.

Anwendungsfälle für KI-Agents

Unternehmen setzen Agents für verschiedene Anwendungsfälle ein, die wir in sechs größere Kategorien einteilen:

Kundenservicemitarbeiter

Kundenservicemitarbeiter bieten personalisierte Kundenerfahrungen, indem sie die Bedürfnisse der Kunden verstehen, Fragen beantworten, Probleme lösen oder die richtigen Produkte und Dienstleistungen empfehlen. Sie funktionieren nahtlos auf verschiedenen Kanälen, einschließlich Web, Mobilgeräte und POS, und können in Produktpräsentationen mit Sprach- oder Videobefehlen eingebunden werden.

Mitarbeiter-Agents

Mitarbeiter-Agenten steigern die Produktivität, indem sie Prozesse optimieren, sich wiederholende Aufgaben erledigen, Fragen von Mitarbeitern beantworten sowie wichtige Inhalte und Mitteilungen bearbeiten und übersetzen. 

Kreativ-Agents

Kreative Agents unterstützen Sie beim Design und im kreativen Prozess, indem sie Inhalte, Bilder und Ideen generieren und Sie beim Design, Schreiben, bei der Personalisierung und bei Kampagnen unterstützen. 

Data Agents

Data Agents sind für komplexe Datenanalysen konzipiert. Sie können aus Daten aussagekräftige Informationen gewinnen und darauf reagieren, während sie gleichzeitig die sachliche Integrität ihrer Ergebnisse sicherstellen. 

Code-Agents

Code-Agents beschleunigen die Softwareentwicklung durch KI-gestützte Codegenerierung und Programmierhilfen sowie durch die Einführung neuer Sprachen und Codebasen. Viele Organisationen verzeichnen einen deutlichen Produktivitätszuwachs, der zu einer schnelleren Bereitstellung und einem saubereren, verständlicheren Code führt. 

Sicherheits-Agents

Sicherheitsmitarbeiter können den Sicherheitsstatus verbessern, indem sie Angriffe abwehren oder die Geschwindigkeit von Untersuchungen erhöhen. Sie können die Sicherheit auf verschiedenen Ebenen und in verschiedenen Phasen des Sicherheitslebenszyklus überwachen: Prävention, Erkennung und Reaktion. 

Google Cloud und KI-Agents

Google Cloud bietet ein Portfolio von Produkten und Lösungen im Bereich KI-Agenten. Dazu gehören integrierte KI-Assistenten, vordefinierte KI-Agents, KI-Anwendungen und eine Plattform mit Agent- und Entwicklertools zum Erstellen benutzerdefinierter KI-Agents.

Gleich loslegen

Profitieren Sie von einem Guthaben über 300 $, um Google Cloud und mehr als 20 „Immer kostenlos“ Produkte kennenzulernen.

Google Cloud