Diese Seite wurde von der Cloud Translation API übersetzt.

Model Armor – Übersicht

Model Armor ist ein Google Cloud -Dienst, der die Sicherheit Ihrer KI-Anwendungen verbessern soll. Dazu werden LLM-Prompts und ‑Antworten proaktiv überprüft, um vor verschiedenen Risiken zu schützen und verantwortungsbewusste KI-Praktiken zu gewährleisten. Ganz gleich, ob Sie KI in Ihrer Cloud-Umgebung oder sogar bei externen Cloud-Anbietern bereitstellen – Model Armor kann Ihnen helfen, schädliche Eingaben zu verhindern, die Sicherheit von Inhalten zu überprüfen, sensible Daten zu schützen, die Compliance aufrechtzuerhalten und Ihre KI-Sicherheitsrichtlinien in Ihrer vielfältigen KI-Landschaft konsistent durchzusetzen.

Architektur

Model Armor-Architektur Dieses Architekturdiagramm zeigt eine Anwendung, die Model Armor verwendet, um ein LLM und einen Nutzer zu schützen. Im Folgenden wird der Datenfluss beschrieben.

Ein Nutzer gibt einen Prompt in die Anwendung ein.
Model Armor prüft den eingehenden Prompt auf potenziell sensible Inhalte.
Der Prompt (oder der bereinigte Prompt) wird an das LLM gesendet.
Das LLM generiert eine Antwort.
Model Armor prüft die generierte Antwort auf potenziell sensible Inhalte.
Die Antwort (oder bereinigte Antwort) wird an den Nutzer gesendet. Model Armor sendet eine detaillierte Beschreibung der ausgelösten und nicht ausgelösten Filter in der Antwort.

Model Armor filtert sowohl Eingaben (Prompts) als auch Ausgaben (Antworten), um zu verhindern, dass das LLM schädlichen oder sensiblen Inhalten ausgesetzt wird oder solche Inhalte generiert.

Anwendungsfälle

Model Armor hat mehrere Anwendungsfälle in verschiedenen Branchen:

Sicherheit
- Das Risiko, dass sensibles geistiges Eigentum und personenidentifizierbare Informationen in LLM-Prompts oder -Antworten enthalten sind, wird verringert.
- Schutz vor Prompt Injection- und Jailbreak-Angriffen, um zu verhindern, dass böswillige Akteure KI-Systeme manipulieren, damit sie unbeabsichtigte Aktionen ausführen.
- Text in PDFs auf sensible oder schädliche Inhalte prüfen
Sicherheit und verantwortungsbewusste KI
- Verhindern Sie, dass Ihr Chatbot Lösungen von Mitbewerbern empfiehlt, um die Markenintegrität und Kundentreue zu wahren.
- Organisationen können Social-Media-Beiträge, die von ihrer KI generiert werden und schädliche Inhalte wie gefährliche oder hasserfüllte Inhalte enthalten, herausfiltern.

Model Armor-Vorlagen

Mit Model Armor-Vorlagen können Sie konfigurieren, wie Model Armor Prompts und Antworten prüft. Sie funktionieren als Sätze von benutzerdefinierten Filtern und Schwellenwerten für verschiedene Sicherheitskonfidenzniveaus und ermöglichen die Kontrolle darüber, welche Inhalte gekennzeichnet werden.

Die Grenzwerte stellen Konfidenzniveaus dar. Sie geben an, wie sicher Model Armor ist, dass der Prompt oder die Antwort anstößige Inhalte enthält. Sie können beispielsweise eine Vorlage erstellen, die Prompts mit hasserfüllten Inhalten mit einem HIGH-Schwellenwert filtert. Das bedeutet, dass Model Armor mit hoher Wahrscheinlichkeit meldet, dass der Prompt hasserfüllte Inhalte enthält. Ein LOW_AND_ABOVE-Grenzwert gibt an, dass ein beliebiges Konfidenzniveau (LOW, MEDIUM und HIGH) für die Behauptung vorliegt.

Weitere Informationen finden Sie unter Model Armor-Vorlagen.

Konfidenzniveaus von Model Armor

Sie können Konfidenzniveaus für die Sicherheitskategorien für verantwortungsbewusste KI (sexuell explizit, gefährlich, Belästigung und Hassrede), die Erkennung von Prompt Injection und Jailbreaking sowie den Schutz sensibler Daten (einschließlich Aktualität) festlegen.

Bei Konfidenzniveaus, die detaillierte Grenzwerte zulassen, interpretiert Model Armor sie so:

Hoch: Gibt an, ob die Nachricht mit hoher Wahrscheinlichkeit Inhalte enthält, die
Mittel und höher: Identifizieren, ob die Nachricht Inhalte mit mittlerer oder hoher Wahrscheinlichkeit enthält.
Niedrig und höher: Es wird ermittelt, ob die Nachricht Inhalte mit einer niedrigen, mittleren oder hohen Wahrscheinlichkeit enthält.

Model Armor-Filter

Model Armor bietet eine Vielzahl von Filtern, mit denen Sie sichere KI-Modelle bereitstellen können. Die folgenden Filterkategorien sind verfügbar.

Sicherheitsfilter für verantwortungsbewusste Anwendung von KI

Sie können Prompts und Antworten mit den oben genannten Vertrauensniveaus für die folgenden Kategorien prüfen:

Kategorie	Definition
Hassrede	Negative oder schädliche Kommentare, die auf Identität und/oder geschützte Merkmale ausgerichtet sind
Belästigung	Böswillige, einschüchternde, mobbende oder missbräuchliche Kommentare, die auf andere Personen ausgerichtet sind
sexuell explizit	Enthält Verweise auf sexuelle Handlungen oder andere vulgäre Inhalte
Gefährliche Inhalte	Fördert oder ermöglicht den Zugriff auf schädliche Waren, Dienste und Aktivitäten

Der Filter für Darstellungen des sexuellen Missbrauchs von Kindern wird standardmäßig angewendet und kann nicht deaktiviert werden.

Erkennung von Prompt Injection und Jailbreaking

Prompt Injection ist eine Sicherheitslücke, bei der Angreifer spezielle Befehle in die Texteingabe (den Prompt) einbetten, um ein KI-Modell zu täuschen. Dies kann dazu führen, dass die KI ihre üblichen Anweisungen ignoriert, vertrauliche Informationen preisgibt oder Aktionen ausführt, für die sie nicht vorgesehen war. Jailbreaking im Kontext von LLMs bezieht sich auf das Umgehen der Sicherheits- und Ethikprotokolle, die in das Modell integriert sind. Dadurch kann das LLM Antworten generieren, die es ursprünglich vermeiden sollte, z. B. schädliche, unethische und gefährliche Inhalte.

Wenn die Erkennung von Prompt Injections und Jailbreaking aktiviert ist, scannt Model Armor Prompts und Antworten auf schädliche Inhalte. Wenn sie erkannt wird, blockiert Model Armor den Prompt oder die Antwort.

Sensitive Data Protection

Sensitive Data Protection ist ein Google Cloud Dienst, mit dem Sie sensible Daten ermitteln, klassifizieren und de-identifizieren können. Mit Sensitive Data Protection können Sie sensible Elemente, Kontext und Dokumente identifizieren, um das Risiko von Datenlecks in und aus KI-Arbeitslasten zu verringern. Sie können Sensitive Data Protection direkt in Model Armor verwenden, um sensible Elemente zu transformieren, zu tokenisieren und zu entfernen, während nicht sensible Inhalte beibehalten werden. Model Armor kann vorhandene Prüfvorlagen akzeptieren. Diese Konfigurationen dienen als Blaupausen, um das Scannen und Identifizieren sensibler Daten zu optimieren, die für Ihr Unternehmen und Ihre Compliance-Anforderungen spezifisch sind. So können Sie für Konsistenz und Interoperabilität zwischen anderen Arbeitslasten sorgen, die den Schutz sensibler Daten verwenden.

Model Armor bietet zwei Modi für die Konfiguration von Sensitive Data Protection:

Einfache Konfiguration: In diesem Modus konfigurieren Sie Sensitive Data Protection, indem Sie die Typen sensibler Daten angeben, nach denen gesucht werden soll. Dieser Modus unterstützt die folgenden Kategorien:
- Kreditkartennummer
- Sozialversicherungsnummer (SSN) in den USA
- Finanzkontonummer
- US-Steuernummer für Einzelpersonen (ITIN)
- Google Cloud Anmeldedaten
- Google Cloud API-Schlüssel
Die einfache Konfiguration ermöglicht nur Inspektionsvorgänge und unterstützt nicht die Verwendung von Vorlagen für den Schutz sensibler Daten. Weitere Informationen finden Sie unter Grundlegende Konfiguration des Schutzes sensibler Daten.
Erweiterte Konfiguration: Dieser Modus bietet mehr Flexibilität und Anpassungsmöglichkeiten durch Vorlagen für den Schutz sensibler Daten. Vorlagen für den Schutz sensibler Daten sind vordefinierte Konfigurationen, mit denen Sie detailliertere Erkennungsregeln und De-Identifikationstechniken festlegen können. Die erweiterte Konfiguration unterstützt sowohl Prüf- als auch De-Identifikationsvorgänge.

Konfidenzniveaus für Sensitive Data Protection funktionieren etwas anders als Konfidenzniveaus für andere Filter. Weitere Informationen zu den Vertrauensniveaus für den Schutz sensibler Daten finden Sie unter Wahrscheinlichkeit von Übereinstimmungen beim Schutz sensibler Daten. Weitere Informationen zum Schutz sensibler Daten im Allgemeinen finden Sie unter Schutz sensibler Daten – Übersicht.

Erkennung schädlicher URLs

Schädliche URLs sind oft so getarnt, dass sie legitim aussehen. Dadurch sind sie ein wirksames Werkzeug für Phishing-Angriffe, die Verbreitung von Malware und andere Onlinebedrohungen. Wenn eine PDF-Datei beispielsweise eine eingebettete schädliche URL enthält, kann sie verwendet werden, um nachgelagerte Systeme zu gefährden, die LLM-Ausgaben verarbeiten.

Wenn die Erkennung schädlicher URLs aktiviert ist, scannt Model Armor URLs, um festzustellen, ob sie schädlich sind. So können Sie Maßnahmen ergreifen und verhindern, dass bösartige URLs zurückgegeben werden.

Erzwingungstyp definieren

Die Durchsetzung definiert, was passiert, nachdem ein Verstoß erkannt wurde. Sie legen den Erzwingungstyp fest, um zu konfigurieren, wie Model Armor mit erkannten Bedrohungen umgeht. Model Armor bietet die folgenden Erzwingungstypen:

Nur prüfen: Anfragen, die gegen die konfigurierten Einstellungen verstoßen, werden geprüft, aber nicht blockiert.
Prüfen und blockieren: Anfragen, die gegen die konfigurierten Einstellungen verstoßen, werden blockiert.

Damit Sie Inspect only effektiv nutzen und wertvolle Informationen erhalten können, müssen Sie Cloud Logging aktivieren. Ohne aktiviertes Cloud Logging liefert Inspect only keine nützlichen Informationen.

Über Cloud Logging auf Ihre Logs zugreifen Filtern Sie nach dem Dienstnamen modelarmor.googleapis.com. Suchen Sie nach Einträgen, die sich auf die Vorgänge beziehen, die Sie in Ihrer Vorlage aktiviert haben. Weitere Informationen finden Sie unter Logs mit dem Log-Explorer aufrufen.

Mindesteinstellungen für Model Armor

Model Armor-Vorlagen bieten zwar Flexibilität für einzelne Anwendungen, Organisationen müssen jedoch oft ein grundlegendes Schutzniveau für alle ihre KI-Anwendungen festlegen. Hier werden die Mindesteinstellungen für Model Armor verwendet. Sie fungieren als Regeln, die Mindestanforderungen für alle Vorlagen definieren, die an einem bestimmten Punkt in der Google Cloud Ressourcenhierarchie erstellt werden, d. h. auf Organisations-, Ordner- oder Projektebene.

Weitere Informationen finden Sie unter Mindesteinstellungen für Model Armor.

Sprachunterstützung

Model Armor-Filter unterstützen das Bereinigen von Prompts und Antworten in mehreren Sprachen.

Der Filter für den Schutz sensibler Daten unterstützt Englisch und andere Sprachen, je nachdem, welche infoTypes Sie ausgewählt haben.
Die Filter Verantwortungsbewusste KI und Erkennung von Prompt Injection und Jailbreaking werden in den folgenden Sprachen getestet:
- Chinesisch (Mandarin)
- Englisch
- Französisch
- Deutsch
- Italienisch
- Japanisch
- Koreanisch
- Portugiesisch
- Spanisch
Diese Filter können in vielen anderen Sprachen funktionieren, die Qualität der Ergebnisse kann jedoch variieren. Sprachcodes finden Sie unter Unterstützte Sprachen.

Es gibt zwei Möglichkeiten, die Erkennung mehrerer Sprachen zu aktivieren:

Bei jeder Anfrage aktivieren: Für eine detaillierte Steuerung aktivieren Sie die Erkennung mehrerer Sprachen pro Anfrage, wenn Sie einen Nutzer-Prompt bereinigen und eine Modellantwort bereinigen.
Einmalig aktivieren: Wenn Sie eine einfachere Einrichtung bevorzugen, können Sie die mehrsprachige Erkennung einmalig auf Vorlagenebene von Model Armor über die REST API aktivieren. Weitere Informationen finden Sie unter Model Armor-Vorlage erstellen.

Dokumentenprüfung

Text in Dokumenten kann schädliche und sensible Inhalte enthalten. Model Armor kann die folgenden Dokumenttypen auf Sicherheitsrisiken, Prompt Injection- und Jailbreaking-Versuche, sensible Daten und schädliche URLs prüfen:

PDF-Dateien
CSV
Textdateien: TXT
Microsoft Word-Dokumente: DOCX, DOCM, DOTX, DOTM
Microsoft PowerPoint-Folien: PPTX, PPTM, POTX, POTM, POT
Microsoft Excel-Tabellen: XLSX, XLSM, XLTX, XLTM

Preise

Model Armor kann als integrierter Bestandteil von Security Command Center oder als eigenständiger Dienst erworben werden. Preisinformationen finden Sie unter Security Command Center-Preise.

Tokens

Modelle für generative KI zerlegen Text und andere Daten in Einheiten, die als Tokens bezeichnet werden. Model Armor verwendet die Gesamtzahl der Tokens in KI‑Prompts und ‑Antworten für die Preisgestaltung. Model Armor begrenzt die Anzahl der Tokens, die in jedem Prompt und jeder Antwort verarbeitet werden.

Model Armor hat je nach Filter unterschiedliche Tokenlimits. Wenn der Prompt oder die Antwort das Tokenlimit überschreitet, gibt der Filter zum Schutz sensibler Daten EXECUTION_SKIPPED zurück. Alle anderen Filter geben MATCH_FOUND zurück, wenn bösartige Inhalte gefunden werden, und EXECUTION_SKIPPED, wenn keine bösartigen Inhalte gefunden werden, falls der Prompt oder die Antwort das Tokenlimit überschreitet.

Filter	Tokenlimit
Erkennung von Prompt Injection und Jailbreaking	10.000
Verantwortungsbewusste Anwendung von KI	10.000
Darstellungen des sexuellen Missbrauchs von Kindern	10.000
Schutz sensibler Daten	Bis zu 130.000