Vertex AI 安全性

Gemini 等生成式 AI 模型需要完善的安全防護措施，才能降低生成有害內容、洩漏私密資訊或遭到濫用等風險。 Google CloudVertex AI 平台提供一系列工具和做法，協助您為 Gemini 模型全面導入安全防護措施。

潛在安全風險和緩解策略

部署 Gemini 模型時，請務必找出並降低各種潛在風險。主動瞭解這些風險，有助於更有效地落實安全措施。多層式安全防護措施至關重要，因為這類措施可以減輕或防範下列情況：

內容風險：包括有害、不雅、性暗示、暴力和血腥內容。
品牌安全風險：生成的內容可能與品牌的語氣或價值觀不一致、可能宣傳競爭對手或不當產品，或生成可能導致聲譽受損的內容。
對齊風險：生成的內容可能不相關或不準確。
安全性和隱私權風險：生成的內容可能會洩漏敏感的訓練資料或提示，或是惡意使用者可能會嘗試強制模型覆寫安全通訊協定，或以非預期的方式運作。

我們部署的模型提供多種功能，可解決這些潛在問題：

預設模型和無法設定的篩選條件可提供一般安全防護網。
系統指令可直接引導模型，瞭解偏好的行為和應避免的主題。
內容篩選器可讓您為常見的有害類型設定特定門檻。
Gemini 做為篩選器：針對複雜或細微的安全疑慮，提供進階且可自訂的檢查點，這些疑慮可能遭到前幾層忽略，或需要更多情境感知評估。
DLP可專門解決機密資料外洩的重大風險 (如果模型可以存取機密資料)。您也可以建立自訂封鎖清單。

Vertex AI for Gemini 提供的安全工具

Vertex AI 提供多種工具，可管理 Gemini 模型的安全性。瞭解各項功能的運作方式、注意事項和理想用途，有助於建構專屬的安全解決方案。

做法	運作方式	提供防護	風險	使用時機
預設設定：Gemini + 無法設定的篩選器	Gemini 模型在設計時就已考量到安全性和公平性，即使遇到惡意提示，Google 投入大量資源進行全面安全評估，包括偏見和有害內容。預設設定包含獨立的保護層，可防止生成與兒少性虐待內容 (CSAM) 或受著作權保護內容 (朗讀) 相關的內容。	針對兒少性虐待內容和著作權提供基本防護 (朗讀)	Gemini 的預設安全設定可能不符合貴機構的需求。模型可能會產生幻覺或不遵守指令。有心人士仍可能成功越獄和提示注入	不應有惡意輸入內容的工作流程
可設定的篩選器	Gemini 內建的內容篩選器可進一步防範各種有害內容，例如色情、仇恨、騷擾或危險內容。您可以為每個危害類別設定封鎖門檻，例如`BLOCK_LOW_AND_ABOVE`、`BLOCK_MEDIUM_AND_ABOVE`、`BLOCK_ONLY_HIGH`)，具體取決於有害內容的機率和/或嚴重程度。這些是獨立於模型的層級，因此可有效防範越獄攻擊。	針對預先定義類別提供強大的違規防護機制，可調整敏感度	除了預先定義類別的閾值設定外，無法進行更精細的自訂。有時可能會封鎖良性內容 (誤判) 或遺漏部分有害內容 (誤判)。僅適用於篩選回覆，不適用於篩選提示。	為面向使用者的應用程式或代理程式提供基本安全防護。如要確保內容和品牌安全，內容篩選器應搭配系統指令使用。
系統指示	您可以透過系統指令或前言，向模型說明品牌和內容安全規範。舉例來說，您可以要求模型「不要回答與政治相關的問題」，或是遵循特定的品牌風格和語氣指南。系統指令會直接引導模型行為。	可自訂內容/品牌安全設定，效果顯著。	模型可能會產生幻覺或未遵循指令。有心人士仍可能成功越獄和注入提示詞	應用程式或代理程式需要遵守特定品牌宣傳指南或細微的內容政策。如要確保內容和品牌安全，系統指令應搭配內容篩選器使用。
自訂封鎖清單的資料遺失防護功能和機密資料保護功能	DLP API 可檢查文字，並根據各種預先定義和自訂的 infoType 偵測工具，識別及分類機密資訊。系統識別出個人資訊後，即可套用去識別化技術，例如遮蓋、遮罩或權杖化。您也可以使用 DLP API 封鎖關鍵字。輸入內容保護：將使用者提示或資料傳送至 Gemini 前，您可以先透過 DLP API 遮蓋或遮蔽任何私密資訊。這樣可避免模型處理或記錄敏感資料。輸出內容保護：如果 Gemini 可能會無意間生成或揭露私密資訊 (例如摘要含有 PII 的來源文件)，DLP API 可以在輸出內容傳送給使用者前掃描內容。	強效過濾不雅字詞或自訂字詞。強效篩選機密資料。	新增延遲時間。可能會導致過度封鎖。	保護可存取機密資料的服務專員，避免資料遺失。
將 Gemini 做為篩選器	你可以使用 Gemini 為代理程式或應用程式篩選提示和回覆。這需要對快速且經濟實惠的 Gemini 模型 (例如 Gemini Flash 或 Flash Lite) 進行第二次呼叫，評估使用者或工具的輸入內容，或是主要 Gemini 模型的輸出內容是否安全。系統會根據您定義的政策 (包括內容安全、品牌安全和代理程式不一致)，指示篩選器模型判斷內容是否安全。這項功能提供強大且高度可自訂的防護機制，可防範內容安全違規、品牌安全問題、模型漂移和錯覺，並分析文字、圖片、影片和音訊，全面瞭解情況。	高度穩健且可自訂，適用於內容/品牌安全、漂移、幻覺；多模態理解。	額外費用和延遲時間。極罕見的偽陰性結果機率。	為面向使用者的應用程式或代理程式提供自訂安全等級
多層式方法：可設定的篩選器 + 系統指令 + 資料遺失防護 + Gemini 做為篩選器		高度穩健且可自訂，適用於內容/品牌安全、漂移、幻覺；多模態理解	額外費用和延遲時間。	為面向使用者的應用程式或代理程式提供強大的安全防護，特別是預期會遭到惡意使用的情況

持續進行安全評估

AI 領域和濫用方法不斷演進，因此持續評估 AI 系統的安全性至關重要。定期評估有助於找出安全漏洞、評估緩解措施的成效、因應不斷變化的風險、確保符合政策和價值觀、建立信任，以及維持法規遵循狀態。為此，我們採用各種評估類型，包括開發評估、保證評估、紅隊測試、外部評估和基準測試。評估範圍應涵蓋內容安全性、品牌安全、相關性、偏誤和公平性、真實性，以及抵禦對抗性攻擊的穩定性。Vertex AI 的生成式 AI 評估服務等工具可協助您完成這些工作，並強調根據評估結果進行反覆改良，是負責任地開發 AI 的必要做法。

Vertex AI 安全性 透過集合功能整理內容 你可以依據偏好儲存及分類內容。

潛在安全風險和緩解策略

Vertex AI for Gemini 提供的安全工具

持續進行安全評估

Vertex AI 安全性