Gemini などの生成 AI モデルでは、有害なコンテンツの生成、機密情報の漏洩、不正使用などのリスクを軽減するために、堅牢な安全対策が必要です。 Google Cloudの Vertex AI プラットフォームは、Gemini モデルに包括的な安全対策を実装するための一連のツールとプラクティスを提供します。
潜在的な安全上のリスクと軽減策
Gemini モデルをデプロイする際は、さまざまな潜在的なリスクを特定して軽減することが重要です。これらのリスクを理解するための事前対応型のアプローチにより、安全対策をより効果的に実施できます。多層的なアプローチによる安全性は、次のようなリスクを軽減または防止できるため、非常に重要です。
- コンテンツのリスク: 有害なコンテンツ、冒とくや性的な表現、暴力や残虐な表現などが該当します。
- ブランド保護のリスク: 生成されたコンテンツがブランドのトーンや価値観に沿っていない、競合他社や不適切な商品を推奨している、評判を損なう可能性のあるコンテンツを生成している、といったリスクがあります。
- アライメントのリスク: 生成されたコンテンツが関連性のないものや不正確なものになる可能性があります。
- セキュリティとプライバシーのリスク: 生成されたコンテンツから機密性の高いトレーニング データやプロンプトが漏洩する可能性があります。また、悪意のあるユーザーがモデルに安全プロトコルをオーバーライドさせたり、意図しない動作をさせたりしようとする可能性があります。
デプロイされたモデルには、こうした潜在的な問題に対処するためのさまざまな機能が用意されています。
- デフォルトのモデルと構成不可のフィルタは、一般的な安全ネットを提供します。
- システム指示は、望ましい動作や避けるべきトピックについてモデルに直接的なガイダンスを提供します。
- コンテンツ フィルタを使用すると、一般的な有害コンテンツの種類について特定のしきい値を設定できます。
- フィルタとしての Gemini は、前のレイヤでは見逃される可能性のある複雑な安全性の懸念や、コンテキスト認識型の評価が必要な安全性の懸念に対して、高度でカスタマイズ可能なチェックポイントを提供します。
- DLP は、モデルが機密データにアクセスできる場合に、機密データの漏洩という重大なリスクに特に対処します。カスタム ブロックリストを作成することもできます。
Vertex AI for Gemini で利用可能な安全性ツール
Vertex AI には、Gemini モデルの安全性を管理するためのツールがいくつか用意されています。それぞれの仕組み、考慮事項、理想的なユースケースを理解することで、カスタマイズされた安全ソリューションを構築できます。
アプローチ | 仕組み | 保護が提供されている | リスク | 使用する状況 |
---|---|---|---|---|
デフォルト設定: Gemini + 構成不可のフィルタ | Gemini モデルは、敵対的なプロンプトに直面した場合でも、安全性と公平性を考慮して設計されています。Google は、偏見や有害性など、包括的な安全性評価に投資しています。デフォルト設定には、児童性的虐待のコンテンツ(CSAM)や著作権で保護されたコンテンツ(朗読)に関連するコンテンツの生成を防ぐように設計された独立した保護レイヤが含まれています。 | 児童性的虐待のコンテンツと著作権に対する基本的な保護(朗読) | Gemini のデフォルトの安全性は、組織のニーズを満たしていない可能性があります。モデルがハルシネーションを起こしたり、指示に従わなかったりする可能性があります。熱心な攻撃者は、ジェイルブレイクやプロンプト インジェクションに成功する可能性があります。 | 悪意のある入力が想定されていないワークフロー |
構成可能なフィルタ |
Gemini の事前構築済みコンテンツ フィルタは、性的コンテンツ、ヘイトスピーチ、ハラスメント、危険なコンテンツなど、さまざまなカテゴリの有害なコンテンツに対する追加の保護を提供します。有害コンテンツのカテゴリごとにブロックしきい値を構成できます(BLOCK_LOW_AND_ABOVE 、BLOCK_MEDIUM_AND_ABOVE 、BLOCK_ONLY_HIGH )を返します。これらはモデルから独立したレイヤであるため、ジェイルブレイクに対して堅牢です。 |
事前定義済みカテゴリの違反に対して堅牢、感度を調整可能 | 事前定義されたカテゴリのしきい値設定を超えたきめ細かいカスタマイズができません。無害なコンテンツがブロックされたり(偽陽性)、有害なコンテンツがブロックされなかったりする(偽陰性)ことがあります。プロンプトのフィルタリングではなく、レスポンスのフィルタリングでのみ使用できます。 | ユーザー向けアプリケーションまたはエージェントの基本的な安全性を確保します。コンテンツとブランドの安全性を確保することが目標の場合は、コンテンツ フィルタをシステム指示と組み合わせて使用する必要があります。 |
システムの指示 | システム指示または前文を使用して、ブランドとコンテンツの安全性ガイドラインをモデルに指示できます。たとえば、「政治に関する質問には回答しない」や、特定のブランド ボイスとトーンのガイドラインに沿って回答するようにモデルに指示できます。システム指示は、モデルの動作を直接ガイドします。 | コンテンツ/ブランド保護に合わせてカスタマイズ可能で、効果が高い。 | モデルがハルシネーションを起こしたり、指示に従わなかったりする可能性があります。意欲的な攻撃者は、ジェイルブレイクやプロンプト インジェクションに成功する可能性があります。 | 特定のブランド ガイドラインやニュアンスのあるコンテンツ ポリシーの遵守を必要とするアプリケーションやエージェント。コンテンツとブランドの安全性を確保することが目標の場合は、システム指示をコンテンツ フィルタと組み合わせて使用する必要があります。 |
カスタム ブロックリストと機密データの保護のための DLP | DLP API は、広範な事前定義済みおよびカスタムの infoType 検出器に基づいて、テキストを検査して機密情報を識別し、分類できます。特定されると、秘匿化、マスキング、トークン化などの匿名化手法を適用できます。DLP API を使用してキーワードをブロックすることもできます。入力保護: ユーザーのプロンプトやデータを Gemini に送信する前に、DLP API を介してテキストを渡して、機密情報を削除またはマスクできます。これにより、モデルによる機密データの処理やロギングを防ぐことができます。出力保護: Gemini が機密情報を誤って生成または開示するリスクがある場合(PII を含むソースドキュメントを要約する場合など)、モデルの出力はユーザーに送信される前に DLP API でスキャンできます。 | 冒とく的な言葉やカスタム単語を強力にフィルタします。機密データの堅牢なフィルタリング。 | レイテンシが増加します。ブロックしすぎにつながる可能性があります。 | 機密データにアクセスできるエージェントのデータ損失保護。 |
Gemini をフィルタとして使用する | Gemini を使用して、エージェントまたはアプリのプロンプトとレスポンスをフィルタできます。これには、高速で費用対効果の高い Gemini モデル(Gemini Flash や Flash Lite など)に 2 回目の呼び出しを行い、ユーザーまたはツールからの入力、またはプライマリ Gemini モデルからの出力が安全かどうかを評価することが含まれます。フィルタモデルには、コンテンツの安全性、ブランドの安全性、エージェントの不整合など、定義されたポリシーに基づいてコンテンツが安全か安全でないかを判断する手順が与えられます。これにより、コンテンツの安全性違反、ブランドの安全性に関する問題、モデルのドリフト、ハルシネーションに対して、堅牢で高度にカスタマイズ可能な保護が提供されます。また、テキスト、画像、動画、音声を分析して、全体像を把握できます。 | コンテンツ/ブランドの安全性、ドリフト、ハルシネーション、マルチモーダル理解のために、非常に堅牢でカスタマイズ可能です。 | 追加のコストとレイテンシ。極めてまれな偽陰性の可能性。 | ユーザー向けアプリケーションまたはエージェントにカスタムの安全性レベルを提供する |
多層アプローチ: 構成可能なフィルタ + システム指示 + DLP + Gemini をフィルタとして使用 | コンテンツ/ブランドの安全性、ドリフト、ハルシネーションに対して非常に堅牢でカスタマイズ可能。マルチモーダル理解 | 追加のコストとレイテンシ。 | 特に敵対的で悪意のある使用が想定される場合、ユーザー向けアプリケーションやエージェントに堅牢なレベルの安全性を提供します。 |
継続的な安全性評価
AI の状況と不正使用の手法は常に変化しているため、AI システムでは継続的な安全性評価が不可欠です。定期的な評価は、脆弱性の特定、緩和策の有効性の評価、リスクの変化への適応、ポリシーと価値観との整合性の確保、信頼の構築、コンプライアンスの維持に役立ちます。開発評価、保証評価、レッドチーム、外部評価、ベンチマーク テストなど、さまざまな評価タイプがこの目標の達成に役立ちます。評価の範囲は、コンテンツの安全性、ブランドの安全性、関連性、バイアスと公平性、真実性、敵対的攻撃に対する堅牢性を対象とする必要があります。Vertex AI の Gen AI Evaluation Service などのツールは、こうした取り組みを支援します。評価結果に基づく反復的な改善は、責任ある AI 開発に不可欠です。