Vertex AI 安全性

Gemini 等生成式 AI 模型需要完善的安全防護措施,才能降低生成有害內容、洩漏私密資訊或遭到濫用等風險。 Google CloudVertex AI 平台提供一系列工具和做法,協助您為 Gemini 模型全面導入安全防護措施。

潛在安全風險和緩解策略

部署 Gemini 模型時,請務必找出並降低各種潛在風險。主動瞭解這些風險,有助於更有效地落實安全措施。多層式安全防護措施至關重要,因為這類措施可以減輕或防範下列情況:

  • 內容風險:包括有害、不雅、性暗示、暴力和血腥內容。
  • 品牌安全風險:生成的內容可能與品牌的語氣或價值觀不一致、可能宣傳競爭對手或不當產品,或生成可能導致聲譽受損的內容。
  • 對齊風險:生成的內容可能不相關或不準確。
  • 安全性和隱私權風險:生成的內容可能會洩漏敏感的訓練資料或提示,或是惡意使用者可能會嘗試強制模型覆寫安全通訊協定,或以非預期的方式運作。

我們部署的模型提供多種功能,可解決這些潛在問題:

  • 預設模型和無法設定的篩選條件可提供一般安全防護網。
  • 系統指令 可直接引導模型,瞭解偏好的行為和應避免的主題。
  • 內容篩選器可讓您為常見的有害類型設定特定門檻。
  • Gemini 做為篩選器: 針對複雜或細微的安全疑慮,提供進階且可自訂的檢查點,這些疑慮可能遭到前幾層忽略,或需要更多情境感知評估。
  • DLP可專門解決機密資料外洩的重大風險 (如果模型可以存取機密資料)。您也可以建立自訂封鎖清單。

Vertex AI for Gemini 提供的安全工具

Vertex AI 提供多種工具,可管理 Gemini 模型的安全性。瞭解各項功能的運作方式、注意事項和理想用途,有助於建構專屬的安全解決方案。

做法 運作方式 提供防護 風險 使用時機
預設設定:Gemini + 無法設定的篩選器 Gemini 模型在設計時就已考量到安全性和公平性,即使遇到惡意提示,Google 投入大量資源進行全面安全評估,包括偏見和有害內容。預設設定包含獨立的保護層,可防止生成與兒少性虐待內容 (CSAM) 或受著作權保護內容 (朗讀) 相關的內容。 針對兒少性虐待內容和著作權提供基本防護 (朗讀) Gemini 的預設安全設定可能不符合貴機構的需求。模型可能會產生幻覺或不遵守指令。有心人士仍可能成功越獄和提示注入 不應有惡意輸入內容的工作流程
可設定的篩選器 Gemini 內建的內容篩選器可進一步防範各種有害內容,例如色情、仇恨、騷擾或危險內容。您可以為每個危害類別設定封鎖門檻,例如BLOCK_LOW_AND_ABOVEBLOCK_MEDIUM_AND_ABOVEBLOCK_ONLY_HIGH),具體取決於有害內容的機率和/或嚴重程度。這些是獨立於模型的層級,因此可有效防範越獄攻擊。 針對預先定義類別提供強大的違規防護機制,可調整敏感度 除了預先定義類別的閾值設定外,無法進行更精細的自訂。 有時可能會封鎖良性內容 (誤判) 或遺漏部分有害內容 (誤判)。僅適用於篩選回覆,不適用於篩選提示。 為面向使用者的應用程式或代理程式提供基本安全防護。如要確保內容和品牌安全,內容篩選器應搭配系統指令使用。
系統指示 您可以透過系統指令或前言,向模型說明品牌和內容安全規範。舉例來說,您可以要求模型「不要回答與政治相關的問題」,或是遵循特定的品牌風格和語氣指南。系統指令會直接引導模型行為。 可自訂內容/品牌安全設定,效果顯著。 模型可能會產生幻覺或未遵循指令。有心人士仍可能成功越獄和注入提示詞 應用程式或代理程式需要遵守特定品牌宣傳指南或細微的內容政策。如要確保內容和品牌安全,系統指令應搭配內容篩選器使用。
自訂封鎖清單的資料遺失防護功能和機密資料保護功能 DLP API 可檢查文字,並根據各種預先定義和自訂的 infoType 偵測工具,識別及分類機密資訊。系統識別出個人資訊後,即可套用去識別化技術,例如遮蓋、遮罩或權杖化。您也可以使用 DLP API 封鎖關鍵字。輸入內容保護:將使用者提示或資料傳送至 Gemini 前,您可以先透過 DLP API 遮蓋或遮蔽任何私密資訊。這樣可避免模型處理或記錄敏感資料。輸出內容保護:如果 Gemini 可能會無意間生成或揭露私密資訊 (例如摘要含有 PII 的來源文件),DLP API 可以在輸出內容傳送給使用者前掃描內容。 強效過濾不雅字詞或自訂字詞。強效篩選機密資料。 新增延遲時間。可能會導致過度封鎖。 保護可存取機密資料的服務專員,避免資料遺失。
將 Gemini 做為篩選器 你可以使用 Gemini 為代理程式或應用程式篩選提示和回覆。 這需要對快速且經濟實惠的 Gemini 模型 (例如 Gemini Flash 或 Flash Lite) 進行第二次呼叫, 評估使用者或工具的輸入內容,或是主要 Gemini 模型的輸出內容是否安全。系統會根據您定義的政策 (包括內容安全、品牌安全和代理程式不一致),指示篩選器模型判斷內容是否安全。這項功能提供強大且高度可自訂的防護機制,可防範內容安全違規、品牌安全問題、模型漂移和錯覺,並分析文字、圖片、影片和音訊,全面瞭解情況。 高度穩健且可自訂,適用於內容/品牌安全、漂移、幻覺; 多模態理解。 額外費用和延遲時間。極罕見的偽陰性結果機率。 為面向使用者的應用程式或代理程式提供自訂安全等級
多層式方法:可設定的篩選器 + 系統指令 + 資料遺失防護 + Gemini 做為篩選器 高度穩健且可自訂,適用於內容/品牌安全、漂移、幻覺; 多模態理解 額外費用和延遲時間。 為面向使用者的應用程式或代理程式提供強大的安全防護,特別是預期會遭到惡意使用的情況

持續進行安全評估

AI 領域和濫用方法不斷演進,因此持續評估 AI 系統的安全性至關重要。定期評估有助於找出安全漏洞、評估緩解措施的成效、因應不斷變化的風險、確保符合政策和價值觀、建立信任,以及維持法規遵循狀態。為此,我們採用各種評估類型,包括開發評估、保證評估、紅隊測試、外部評估和基準測試。評估範圍應涵蓋內容安全性、品牌安全、相關性、偏誤和公平性、真實性,以及抵禦對抗性攻擊的穩定性。Vertex AI 的生成式 AI 評估服務等工具可協助您完成這些工作,並強調根據評估結果進行反覆改良,是負責任地開發 AI 的必要做法。