Model Armor 是一項 Google Cloud 服務,旨在提升 AI 應用程式的安全性。這項功能會主動檢查 LLM 提示詞和回覆,防範各種風險,並確保 AI 實務做法符合責任原則。無論您是在雲端環境,甚至是外部雲端供應商部署 AI,Model Armor 都能協助您防範惡意輸入內容、驗證內容安全性、保護私密/機密資料、維持法規遵循,以及
架構
這份架構圖顯示應用程式如何使用 Model Armor 保護 LLM 和使用者。以下步驟說明資料流程。
- 使用者向應用程式提供提示。
- Model Armor 會檢查傳入的提示,確認是否含有潛在的私密/機密內容。
- 提示 (或經過清理的提示) 會傳送至 LLM。
- 大型語言模型會生成回覆。
- Model Armor 會檢查生成的內容,找出潛在的私密/機密內容。
- 系統會將回應 (或經過處理的回應) 傳送給使用者。 Model Armor 會在回覆中詳細說明已觸發和未觸發的篩選器。
Model Armor 會篩選輸入內容 (提示) 和輸出內容 (回覆),防止 LLM 接觸或生成惡意或敏感內容。
用途
Model Armor 適用於多個產業的各種用途:
安全性
- 降低機密智慧財產 (IP) 和個人識別資訊 (PII) 外洩的風險,避免這些資訊出現在 LLM 提示或回覆中。
- 防範提示詞注入和越獄攻擊,避免惡意人士操縱 AI 系統執行非預期動作。
- 掃描 PDF 中的文字,確認是否含有敏感或惡意內容。
安全且負責任的 AI 技術
- 防止聊天機器人推薦競爭對手的解決方案,維護品牌誠信和顧客忠誠度。
- 機構可以篩選 AI 生成的社群媒體貼文,找出含有危險或仇恨等有害訊息的內容。
Model Armor 範本
您可以透過 Model Armor 範本,設定 Model Armor 檢查提示和回覆的方式。這些篩選器和門檻可自訂,適用於不同的安全和安全性信心水準,方便您控管要標記的內容。
這些門檻代表信心水準,也就是 Model Armor 認為提示或回覆包含違規內容的信心程度。舉例來說,您可以建立範本,透過 HIGH
門檻篩選出含有仇恨內容的提示,也就是 Model Armor 判斷提示含有仇恨內容的信心水準很高。LOW_AND_ABOVE
門檻表示對該聲明有任何程度的信心 (LOW
、MEDIUM
和 HIGH
)。
詳情請參閱「Model Armor 範本」。
Model Armor 信賴水準
您可以針對負責任的 AI 安全類別 (露骨色情、危險、騷擾和仇恨言論)、提示注入和越獄偵測,以及機密資料保護 (包括主題性) 設定信賴度。
如果信心水準允許使用精細的門檻,Model Armor 會將其解讀為:
- 高:判斷訊息是否極有可能含有這類內容。
- 中等以上:判斷郵件是否含有中等或高機率的內容。
- 低等以上:判斷郵件是否含有低、中或高機率的內容。
Model Armor 篩選器
Model Armor 提供多種篩選器,協助您提供安全無虞的 AI 模型。可用的篩選器類別如下。
負責任的 AI 技術安全篩選器
您可以針對下列類別,在上述信賴度層級篩選提示和回覆:
類別 | 定義 |
---|---|
仇恨言論 | 針對特定身分和/或受保護特質發表負面或有害言論。 |
騷擾 | 針對他人發表含有威脅、恐嚇、霸凌、辱罵或惡意意圖的言論。 |
情色露骨內容 | 提及性行為或其他猥褻情事的內容。 |
危險內容 | 宣傳有害商品、服務與活動,或是提供接觸管道。 |
系統預設會套用兒少性虐待內容 (CSAM) 篩選器,且無法關閉。
提示詞注入和越獄偵測
提示插入是一種安全漏洞,攻擊者會在文字輸入內容 (提示) 編寫特殊指令來誘騙 AI 模型。這樣一來,AI 可能忽視正常指令、透露私密/機密資訊,或是執行非預先設定的動作。就 LLM 而言,越獄是指略過模型內建的安全通訊協定和道德規範。這會導致 LLM 生成原本應避免的內容,例如有害、不道德和危險內容。
啟用提示注入和越獄偵測功能後,Model Armor 會掃描提示和回覆中的惡意內容。如果偵測到這類內容,Model Armor 會封鎖提示或回覆。
Sensitive Data Protection
Sensitive Data Protection 是一項 Google Cloud 服務,可協助您探索、分類及去識別化機密資料。Sensitive Data Protection 可辨識私密元素、內容和文件,協助您降低 AI 工作負載資料外洩的風險。您可以在 Model Armor 中直接使用 Sensitive Data Protection,轉換、權杖化及遮蓋敏感元素,同時保留非敏感內容。Model Armor 可接受現有的檢查範本,這些範本是類似藍圖的設定,可簡化掃描和識別業務及法規遵循需求相關機密資料的程序。這樣一來,您就能確保使用 Sensitive Data Protection 的其他工作負載之間維持一致性及互通性。
Model Armor 提供兩種模式,可設定 Sensitive Data Protection:
基本設定:在這個模式下,您可以指定要掃描的私密/機密資料類型,藉此設定 Sensitive Data Protection。這個模式支援下列類別:
- 信用卡號碼
- 美國社會安全號碼 (SSN)
- 金融帳戶號碼
- 美國個人納稅識別號碼 (ITIN)
- Google Cloud 憑證
- Google Cloud API 金鑰
基本設定僅允許檢查作業,不支援使用 Sensitive Data Protection 範本。詳情請參閱「基本 Sensitive Data Protection 設定」。
進階設定:這個模式提供更多彈性和自訂選項,可透過 Sensitive Data Protection 範本設定。機密資料保護範本是預先定義的設定,可讓您指定更精細的偵測規則和去識別化技術。進階設定支援檢查和去識別化作業。
Sensitive Data Protection 的信賴水準運作方式,與其他篩選器的信賴水準略有不同。如要進一步瞭解 Sensitive Data Protection 的信賴度,請參閱Sensitive Data Protection 比對可能性。如要進一步瞭解 Sensitive Data Protection,請參閱「Sensitive Data Protection 總覽」。
惡意網址偵測
惡意網址通常會偽裝成合法網址,因此成為網路釣魚攻擊、散布惡意軟體和其他線上威脅的強大工具。舉例來說,如果 PDF 內含惡意網址,可用於入侵處理 LLM 輸出的任何下游系統。
啟用惡意網址偵測功能後,Model Armor 會掃描網址,判斷是否為惡意網址。這樣一來,您就能採取行動,防止系統傳回惡意網址。
定義強制執行類型
強制執行定義偵測到違規情事後會發生的情況。如要設定 Model Armor 處理偵測結果的方式,請設定強制執行類型。Model Armor 提供下列強制執行類型:
- 僅檢查:檢查違反設定的要求,但不加以封鎖。
- 檢查並封鎖:封鎖違反設定的要求。
如要有效使用 Inspect only
並取得實用洞察資訊,請啟用 Cloud Logging。
如果未啟用 Cloud Logging,Inspect only
就不會產生任何實用資訊。
透過 Cloud Logging 存取記錄。依服務名稱篩選
modelarmor.googleapis.com
。找出與範本中啟用的作業相關的項目。詳情請參閱「使用記錄檔探索工具查看記錄檔」。
Model Armor 底價設定
雖然 Model Armor 範本可為個別應用程式提供彈性,但機構通常需要在所有 AI 應用程式中建立基本防護等級。系統會在這裡使用 Model Armor 底層設定。這些規則會定義在資源階層中特定時間點建立的所有範本的最低需求 (也就是機構、資料夾或專案層級)。 Google Cloud
詳情請參閱「Model Armor 樓層設定」。
語言支援
Model Armor 篩選器支援以多種語言清除提示詞和回覆。
- Sensitive Data Protection 篩選器支援英文和其他語言,具體取決於您選取的 infoTypes。
「負責任的 AI 技術」和「提示詞注入和越獄偵測」篩選器已通過下列語言的測試:
- 中文 (國語)
- 英文
- 法文
- 德文
- 義大利文
- 日文
- 韓文
- 葡萄牙文
- 西班牙文
這些篩選器也適用於許多其他語言,但結果品質可能有所不同。如需語言代碼,請參閱「支援的語言」。
啟用多語言偵測功能的方法有兩種:
啟用一次性設定:如要簡化設定程序,您可以使用 REST API,在 Model Armor 範本層級啟用多語言偵測功能。詳情請參閱「建立 Model Armor 範本」。
文件篩選
文件中的文字可能含有惡意和敏感內容。Model Armor 可以篩選下列類型的文件,防範安全漏洞、提示注入和越獄嘗試、私密/機密資料和惡意網址:
- CSV
- 文字檔案:TXT
- Microsoft Word 文件:DOCX、DOCM、DOTX、DOTM
- Microsoft PowerPoint 投影片:PPTX、PPTM、POTX、POTM、POT
- Microsoft Excel 工作表:XLSX、XLSM、XLTX、XLTM
如果 RTF 檔案大小為 50 位元組以下,Model Armor 會拒絕掃描要求,因為這類檔案很可能無效。
定價
您可以購買 Model Armor,並整合至 Security Command Center,也可以單獨購買這項服務。如要查看定價資訊,請參閱 Security Command Center 定價。
權杖
生成式 AI 模型會將文字和其他資料拆解成較小的單元,稱為「詞元」。 Model Armor 會根據 AI 提示和回覆中的權杖總數計價。Model Armor 會限制每個提示和回覆中處理的符記數量。
Model Armor 的詞元限制會因特定篩選器而異。
如果提示或回覆超過權杖限制,Sensitive Data Protection 篩選器會傳回 EXECUTION_SKIPPED
。如果提示或回覆超過分詞數量上限,其他所有篩選器都會在發現惡意內容時傳回 MATCH_FOUND
,未發現惡意內容時則傳回 EXECUTION_SKIPPED
。
篩選器 | 詞元數量上限 |
---|---|
提示詞注入和越獄偵測 | 10,000 |
負責任的 AI 技術 | 10,000 |
兒少性虐待內容 | 10,000 |
Sensitive Data Protection | 最多 130,000 個 |
後續步驟
- 瞭解 Model Armor 範本。
- 瞭解 Model Armor 底限設定。
- 瞭解 Model Armor 端點。
- 清除提示和回覆中的有害內容。
- 瞭解 Model Armor 稽核記錄。
- 排解 Model Armor 問題。