Sicherheit in Vertex AI

Für generative KI-Modelle wie Gemini sind robuste Sicherheitsmaßnahmen erforderlich, um Risiken wie das Generieren schädlicher Inhalte, das Weitergeben vertraulicher Informationen oder den Missbrauch zu minimieren. Google CloudDie Vertex AI-Plattform bietet eine Reihe von Tools und Verfahren, um umfassende Sicherheitsmaßnahmen für Ihre Gemini-Modelle zu implementieren.

Potenzielle Sicherheitsrisiken und Strategien zur Risikominderung

Beim Bereitstellen von Gemini-Modellen ist es wichtig, verschiedene potenzielle Risiken zu identifizieren und zu minimieren. Ein proaktiver Ansatz zum Verständnis dieser Risiken ermöglicht eine effektivere Umsetzung von Sicherheitsmaßnahmen. Ein mehrstufiger Sicherheitsansatz ist entscheidend, da er Folgendes verhindern oder abmildern kann:

  • Inhaltsrisiken:Dazu gehören schädliche Inhalte, vulgäre Sprache und Sexualisierung sowie Gewalt und blutrünstige Gewaltdarstellungen.
  • Risiken für die Markensicherheit:Die generierten Inhalte stimmen möglicherweise nicht mit dem Ton oder den Werten Ihrer Marke überein, enthalten Empfehlungen für Mitbewerber oder unangemessene Produkte oder können zu Reputationsschäden führen.
  • Risiken im Zusammenhang mit der Ausrichtung:Generierte Inhalte können irrelevant oder ungenau sein.
  • Sicherheits- und Datenschutzrisiken:Bei generierten Inhalten können sensible Trainingsdaten oder Prompts offengelegt werden. Außerdem können böswillige Nutzer versuchen, das Modell dazu zu zwingen, Sicherheitsprotokolle zu umgehen oder sich auf unerwünschte Weise zu verhalten.

Unsere bereitgestellten Modelle bieten verschiedene Funktionen, um diese potenziellen Probleme zu beheben:

  • Das Standardmodell und die nicht konfigurierbaren Filter bieten ein allgemeines Sicherheitsnetz.
  • Systemanweisungen geben dem Modell direkte Hinweise zum bevorzugten Verhalten und zu Themen, die vermieden werden sollen.
  • Mit Inhaltsfiltern können Sie bestimmte Grenzwerte für häufige Arten von Schäden festlegen.
  • Gemini als Filter bietet einen fortschrittlichen, anpassbaren Kontrollpunkt für komplexe oder differenzierte Sicherheitsbedenken, die von den vorherigen Ebenen möglicherweise nicht erkannt werden oder eine kontextbezogene Bewertung erfordern.
  • DLP befasst sich speziell mit dem kritischen Risiko von Lecks sensibler Daten, falls das Modell Zugriff auf sensible Daten hat. Außerdem können Sie benutzerdefinierte Blockierlisten erstellen.

Verfügbare Sicherheitstools in Vertex AI für Gemini

Vertex AI bietet mehrere Tools zum Verwalten der Sicherheit Ihrer Gemini-Modelle. Wenn Sie wissen, wie die einzelnen Funktionen funktionieren, welche Aspekte zu berücksichtigen sind und welche Anwendungsfälle sich am besten eignen, können Sie eine maßgeschneiderte Sicherheitslösung entwickeln.

Ansatz Funktionsweise Schutzmaßnahmen Risiken Geeignet für
Standardeinstellungen: Gemini + nicht konfigurierbare Filter Gemini-Modelle sind von Natur aus auf Sicherheit und Fairness ausgelegt, auch wenn sie mit feindseligen Prompts konfrontiert werden. Google hat in umfassende Sicherheitsbewertungen investiert, unter anderem in Bezug auf Voreingenommenheit und Toxizität. Die Standardeinstellungen umfassen eine unabhängige Schutzebene, die die Generierung von Inhalten im Zusammenhang mit Darstellungen des sexuellen Missbrauchs von Kindern oder urheberrechtlich geschützten Inhalten (Rezitation) verhindern soll. Basisschutz vor Darstellungen des sexuellen Missbrauchs von Kindern und Urheberrechtsverletzungen (Rezitation) Die Standardeinstellungen für die Sicherheit von Gemini entsprechen möglicherweise nicht den Anforderungen Ihrer Organisation. Das Modell kann halluzinieren oder Anweisungen nicht befolgen. Motivierte Angreifer können trotzdem Jailbreaks und Prompt Injection durchführen. Workflows, bei denen keine schädlichen Eingaben erwartet werden
Konfigurierbare Filter Die integrierten Inhaltsfilter von Gemini bieten zusätzlichen Schutz vor verschiedenen Kategorien schädlicher Inhalte wie sexuelle, hasserfüllte, belästigende oder gefährliche Inhalte. Sie können Grenzwerte für die Blockierung für jede Kategorie schädlichen Inhalts konfigurieren, z.B. BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH) basierend auf der Wahrscheinlichkeit und/oder Schwere der schädlichen Inhalte. Sie sind eine unabhängige Ebene des Modells und daher robust gegenüber Jailbreaks. Robust gegenüber Verstößen bei vordefinierten Kategorien, anpassbare Sensibilität Es gibt keine detaillierten Anpassungsmöglichkeiten über die Schwellenwerteinstellungen für vordefinierte Kategorien hinaus. Gelegentlich werden möglicherweise harmlose Inhalte blockiert (falsch positive Ergebnisse) oder schädliche Inhalte nicht erkannt (falsch negative Ergebnisse). Nur für die Antwortfilterung verfügbar, nicht für die Promptfilterung. Ein grundlegendes Sicherheitsniveau für nutzerorientierte Anwendungen oder Agents bieten. Wenn Sie Inhalte und Markensicherheit gewährleisten möchten, sollten Sie Inhaltsfilter mit Systemanweisungen kombinieren.
Systemanweisungen Sie können dem Modell Ihre Marken- und Inhaltsrichtlinien über Systemanweisungen oder Präambeln mitteilen. Sie können dem Modell beispielsweise mitteilen, dass es keine Fragen zu politischen Themen beantworten soll oder dass es sich an bestimmte Richtlinien für Markenstimme und ‑ton halten soll. Systemanweisungen steuern das Verhalten des Modells direkt. Lässt sich an die Inhalts- und Markensicherheit anpassen und kann sehr effektiv sein. Das Modell kann halluzinieren oder Anweisungen nicht befolgen. Motivierte Angreifer können trotzdem Jailbreaks und Prompt Injection durchführen. Anwendungen oder Agents, die bestimmte Markenrichtlinien oder differenzierte Inhaltsrichtlinien einhalten müssen. Wenn Sie Inhalte und Markensicherheit gewährleisten möchten, sollten Sie Systemanweisungen mit Inhaltsfiltern kombinieren.
DLP für benutzerdefinierte Blockierlisten und Schutz sensibler Daten Mit der DLP API kann Text geprüft werden, um sensible Informationen anhand einer Vielzahl von vordefinierten und benutzerdefinierten infoType-Detektoren zu identifizieren und zu klassifizieren. Nach der Identifizierung können De-Identifikationstechniken wie Entfernen, Maskieren oder Tokenisieren angewendet werden. Die DLP API kann auch verwendet werden, um Keywords zu blockieren. Eingabeschutz: Bevor Sie Nutzer-Prompts oder Daten an Gemini senden, können Sie den Text über die DLP API weiterleiten, um vertrauliche Informationen zu entfernen oder zu maskieren. So wird verhindert, dass sensible Daten vom Modell verarbeitet oder protokolliert werden. Ausgabeschutz: Wenn das Risiko besteht, dass Gemini versehentlich vertrauliche Informationen generiert oder offenlegt (z.B. wenn das Modell Quelldokumente zusammenfasst, die personenidentifizierbare Informationen enthalten), kann die Ausgabe des Modells vor dem Senden an den Nutzer von der DLP API gescannt werden. Robuste Filterung nach anstößigen oder benutzerdefinierten Wörtern. Robustes Filtern sensibler Daten. Erhöht die Latenz. Kann zu einer Überblockierung führen. Schutz vor Datenverlust für Agents, die Zugriff auf sensible Daten haben.
Gemini als Filter Sie können Gemini verwenden, um Prompts und Antworten für Ihren Agent oder Ihre App zu filtern. Dazu ist ein zweiter Aufruf eines schnellen und kostengünstigen Gemini-Modells (z. B. Gemini Flash oder Flash Lite) erforderlich, um zu prüfen, ob die Eingabe eines Nutzers oder Tools oder die Ausgabe Ihres primären Gemini-Modells sicher ist. Das Filtermodell erhält Anweisungen, um anhand Ihrer definierten Richtlinien zu entscheiden, ob die Inhalte sicher oder unsicher sind. Dazu gehören Inhaltsschutz, Markensicherheit und Abweichungen des Agent. Das bietet einen robusten und hochgradig anpassbaren Schutz vor Verstößen gegen die Inhaltsrichtlinien, Problemen mit der Markensicherheit, Modelldrift und Halluzinationen. Außerdem können Text, Bilder, Videos und Audioinhalte analysiert werden, um ein ganzheitliches Verständnis zu ermöglichen. Sehr robust und anpassbar für Inhalts-/Markensicherheit, Drift und Halluzinationen; multimodales Verständnis. Zusätzliche Kosten und Latenz. Es besteht die Möglichkeit extrem seltener falsch negativer Ergebnisse. Benutzerdefinierte Sicherheitsstufe für nutzerorientierte Anwendungen oder Agents bereitstellen
Mehrschichtiger Ansatz: konfigurierbare Filter + Systemanweisungen + DLP + Gemini als Filter Sehr robust und anpassbar für Inhalts-/Markensicherheit, Drift und Halluzinationen; multimodales Verständnis Zusätzliche Kosten und Latenz. Ein hohes Maß an Sicherheit für nutzerorientierte Anwendungen oder Agents bieten, insbesondere wenn mit feindseliger und böswilliger Nutzung zu rechnen ist

Kontinuierliche Sicherheitsbewertung

Die kontinuierliche Sicherheitsbewertung ist für KI-Systeme von entscheidender Bedeutung, da sich die KI-Landschaft und die Methoden für den Missbrauch ständig weiterentwickeln. Regelmäßige Bewertungen helfen, Sicherheitslücken zu erkennen, die Wirksamkeit von Gegenmaßnahmen zu bewerten, sich an sich entwickelnde Risiken anzupassen, die Einhaltung von Richtlinien und Werten sicherzustellen, Vertrauen aufzubauen und die Compliance aufrechtzuerhalten. Dazu tragen verschiedene Arten von Bewertungen bei, darunter Entwicklungsbewertungen, Assurance-Bewertungen, Red Teaming, externe Bewertungen und Benchmark-Tests. Der Umfang der Bewertung sollte die Inhalts- und Markensicherheit, Relevanz, Bias und Fairness, Wahrheitsgehalt und Robustheit gegenüber feindseligen Angriffen umfassen. Tools wie der Bewertungsdienst für generative KI von Vertex AI können Sie dabei unterstützen. Es ist wichtig, dass Sie iterative Verbesserungen auf Grundlage der Bewertungsergebnisse vornehmen, um eine verantwortungsbewusste KI-Entwicklung zu gewährleisten.