Wichtige Konzepte

Auf dieser Seite finden Sie Informationen zu den wichtigsten Konzepten von Model Armor.

Model Armor-Vorlagen

Mit Model Armor-Vorlagen können Sie konfigurieren, wie Model Armor Prompts und Antworten prüft. Sie bestehen aus benutzerdefinierten Filtern und Grenzwerten für verschiedene Sicherheitsniveaus, mit denen sich steuern lässt, welche Inhalte gemeldet werden.

Die Schwellenwerte stehen für Konfidenzniveaus. Das ist die Wahrscheinlichkeit, mit der Model Armor davon ausgeht, dass die Prompt- oder Antwort anstößige Inhalte enthält. Sie können beispielsweise eine Vorlage erstellen, mit der Prompts mit HIGH-Grenzwert nach hasserfüllten Inhalten gefiltert werden. Das bedeutet, dass Model Armor mit hoher Wahrscheinlichkeit meldet, dass der Prompt hasserfüllte Inhalte enthält. Ein LOW_AND_ABOVE-Grenzwert gibt an, mit welcher Konfidenz (LOW, MEDIUM und HIGH) diese Behauptung aufgestellt wird.

Model Armor-Filter

Model Armor bietet eine Vielzahl von Filtern, mit denen Sie sichere KI-Modelle erstellen können. Hier finden Sie eine Aufschlüsselung der Filterkategorien.

Sicherheitsfilter für verantwortungsbewusste KI

Prompts und Antworten können mit den oben genannten Wahrscheinlichkeitsgraden auf die folgenden Kategorien geprüft werden:

Kategorie Definition
Hassrede Negative oder schädliche Kommentare, die auf Identität und/oder geschützte Merkmale ausgerichtet sind
Belästigung Böswillige, einschüchternde, mobbende oder missbräuchliche Kommentare, die auf andere Personen ausgerichtet sind
sexuell explizit Enthält Verweise auf sexuelle Handlungen oder andere vulgäre Inhalte
Gefährliche Inhalte Fördert oder ermöglicht den Zugriff auf schädliche Waren, Dienste und Aktivitäten

Der Filter für Darstellungen des sexuellen Missbrauchs von Kindern wird standardmäßig angewendet und kann nicht deaktiviert werden.

Erkennung von Prompt Injection und Jailbreaking

Prompt Injection ist eine Sicherheitslücke, bei der Angreifer spezielle Befehle in die Texteingabe (den Prompt) einbetten, um ein KI-Modell zu täuschen. Dies kann dazu führen, dass die KI ihre üblichen Anweisungen ignoriert, vertrauliche Informationen preisgibt oder Aktionen ausführt, für die sie nicht vorgesehen war. Beim Jailbreaking im Kontext von LLMs werden die Sicherheitsprotokolle und ethischen Richtlinien umgangen, die in das Modell integriert sind. So kann das LLM Antworten generieren, die es ursprünglich vermeiden sollte, z. B. schädliche, unethische und gefährliche Inhalte.

Wenn die Erkennung von Prompt Injection und Jailbreaking aktiviert ist, werden Prompts und Antworten von Model Armor auf schädliche Inhalte geprüft. Wenn dies erkannt wird, blockiert Model Armor den Prompt oder die Antwort.

Schutz sensibler Daten

Vertrauliche Daten wie der Name oder die Adresse einer Person können versehentlich oder absichtlich an ein Modell gesendet oder in der Antwort eines Modells bereitgestellt werden.

Sensitive Data Protection ist ein Google Cloud Dienst, mit dem Sie sensible Daten ermitteln, klassifizieren und de-identifizieren können. Mit Sensitive Data Protection können Sie sensible Elemente, Kontexte und Dokumente erkennen, um das Risiko von Datenlecks bei der Übertragung von und zu KI-Arbeitslasten zu verringern. Sie können den Schutz sensibler Daten direkt in Model Armor verwenden, um sensible Elemente zu transformieren, zu tokenisieren und zu entfernen, während der nicht sensible Kontext beibehalten wird. Model Armor unterstützt vorhandene Prüfvorlagen. Dabei handelt es sich um Konfigurationen, die als Blaupausen dienen, um das Scannen und Identifizieren sensibler Daten zu optimieren, die für Ihr Unternehmen und Ihre Compliance-Anforderungen spezifisch sind. So können Sie für Konsistenz und Interoperabilität zwischen anderen Arbeitslasten sorgen, die den Schutz sensibler Daten verwenden.

Model Armor bietet zwei Modi für die Konfiguration von Sensitive Data Protection:

  • Einfache Konfiguration des Schutzes sensibler Daten: In diesem Modus können Sie den Schutz sensibler Daten einfacher konfigurieren, indem Sie direkt die Typen sensibler Daten angeben, nach denen gesucht werden soll. Es werden sechs Kategorien unterstützt: CREDIT_CARD_NUMBER, US_SOCIAL_SECURITY_NUMBER, FINANCIAL_ACCOUNT_NUMBER, US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER, GCP_CREDENTIALS und GCP_API_KEY. Bei der einfachen Konfiguration sind nur Inspektionsvorgänge zulässig. Die Verwendung von Vorlagen für den Schutz sensibler Daten wird nicht unterstützt. Weitere Informationen finden Sie unter Grundlegende Konfiguration des Schutzes sensibler Daten.

  • Erweiterte Konfiguration für den Schutz sensibler Daten: Dieser Modus bietet mehr Flexibilität und Anpassungsmöglichkeiten, da die Verwendung von Vorlagen für den Schutz sensibler Daten möglich ist. Vorlagen für den Schutz sensibler Daten sind vordefinierte Konfigurationen, mit denen Sie detailliertere Erkennungsregeln und De-Identifikationsmethoden angeben können. Die erweiterte Konfiguration unterstützt sowohl Prüfungen als auch De-Identifikationsvorgänge.

Für den Schutz sensibler Daten können zwar Konfidenzniveaus festgelegt werden, diese funktionieren jedoch etwas anders als die Konfidenzniveaus anderer Filter. Weitere Informationen zu den Konfidenzniveaus für den Schutz sensibler Daten finden Sie unter Wahrscheinlichkeit der Übereinstimmung beim Schutz sensibler Daten. Weitere Informationen zum Schutz sensibler Daten finden Sie unter Schutz sensibler Daten – Übersicht.

Erkennung schädlicher URLs

Schädliche URLs sind oft als legitim getarnt, was sie zu einem wirkungsvollen Werkzeug für Phishing-Angriffe, Malware-Verteilung und andere Onlinebedrohungen macht. Wenn eine PDF beispielsweise eine eingebettete schädliche URL enthält, kann sie dazu verwendet werden, alle Downstream-Systeme zu manipulieren, die LLM-Ausgaben verarbeiten.

Wenn die Erkennung schädlicher URLs aktiviert ist, scannt Model Armor URLs, um zu ermitteln, ob sie schädlich sind. So können Sie Maßnahmen ergreifen und verhindern, dass schädliche URLs zurückgegeben werden.

Konfidenzniveaus von Model Armor

Konfidenzniveaus können für die Sicherheitskategorien für verantwortungsbewusste KI (d. h. sexuell explizite, gefährliche, Belästigung und Hassrede), Prompt-Injection und Jailbreak sowie für den Schutz sensibler Daten (einschließlich Aktualität) festgelegt werden.

Bei Konfidenzniveaus, die detaillierte Grenzwerte zulassen, werden diese von Model Armor so interpretiert:

  • Hoch: Es wird ermittelt, ob die Nachricht mit hoher Wahrscheinlichkeit unsichere Inhalte enthält.
  • Mittel und höher: Hier wird ermittelt, ob die Nachricht Inhalte mit mittlerer oder hoher Wahrscheinlichkeit enthält.
  • Niedrig und höher: Gibt an, ob die Nachricht Inhalte mit geringer, mittlerer oder hoher Wahrscheinlichkeit enthält.

PDF-Prüfung

Text in PDFs kann schädliche und vertrauliche Inhalte enthalten. Model Armor kann PDFs auf Sicherheit, Prompt Injection und Jailbreak-Versuche, sensible Daten und schädliche URLs prüfen.

Model Armor-Etageneinstellungen

Während Model Armor-Vorlagen für einzelne Anwendungen Flexibilität bieten, müssen Organisationen häufig ein Mindestmaß an Schutz für alle ihre KI-Anwendungen festlegen. Hier kommen die Mindestpreiseinstellungen von Model Armor zum Einsatz. Sie dienen als Regeln, die Mindestanforderungen für alle Vorlagen festlegen, die an einem bestimmten Punkt in der Google Cloud Ressourcenhierarchie (d. h. auf Organisations-, Ordner- oder Projektebene) erstellt werden.

Weitere Informationen finden Sie unter Model Armor-Grenzeinstellungen.

Nächste Schritte