基本的なコンセプト

このページでは、Model Armor の主なコンセプトについて説明します。

Model Armor テンプレート

Model Armor テンプレートを使用すると、Model Armor がプロンプトとレスポンスをスクリーニングする方法を構成できます。これらは、さまざまな安全性とセキュリティの信頼レベルに対するカスタマイズされたフィルタとしきい値のセットとして機能し、報告されるコンテンツを制御できます。

しきい値は信頼度を表します。つまり、Model Armor がプロンプトまたはレスポンスに不適切なコンテンツが含まれていると判断する信頼度です。たとえば、HIGH しきい値でヘイト コンテンツのプロンプトをフィルタするテンプレートを作成できます。つまり、Model Armor は、プロンプトにヘイト コンテンツが含まれている可能性が高いことを報告します。LOW_AND_ABOVE しきい値は、その申し立てを行う信頼度レベル(LOWMEDIUMHIGH)を示します。

Model Armor フィルタ

Model Armor には、安全でセキュアな AI モデルを提供するために役立つさまざまなフィルタが用意されています。フィルタのカテゴリは次のとおりです。

責任ある AI の安全フィルタ

プロンプトとレスポンスは、次のカテゴリについて、前述の信頼レベルでスクリーニングできます。

カテゴリ 定義
ヘイトスピーチ ID や保護されている属性をターゲットとする否定的なコメントや有害なコメント。
嫌がらせ 他人をターゲットにした威圧表現、いじめ、虐待的な内容を含むコメント。
性的に露骨な表現 性行為やわいせつな内容に関する情報が含まれるコンテンツ。
危険なコンテンツ 有害な商品、サービス、アクティビティへのアクセスを促進または可能にするコンテンツ。

児童性的虐待のコンテンツ(CSAM)フィルタはデフォルトで適用され、オフにすることはできません。

プロンプト インジェクションとジェイルブレイクの検出

プロンプト インジェクションは、攻撃者がテキスト入力(プロンプト)に特別なコマンドを挿入して AI モデルを騙そうとするセキュリティ脆弱性です。これにより、AI が通常の指示を無視したり、機密情報を開示したり、意図しないアクションを実行したりする可能性があります。LLM のコンテキストでの Jailbreaking とは、モデルに組み込まれている安全プロトコルと倫理ガイドラインをバイパスする行為を指します。これにより、LLM は、有害、非倫理的、危険なコンテンツなど、元々回避するように設計された回答を生成できるようになります。

プロンプト インジェクションとジェイルブレイクの検出が有効になっている場合、Model Armor はプロンプトとレスポンスをスキャンして悪意のあるコンテンツを検出します。検出されると、Model Armor はプロンプトまたはレスポンスをブロックします。

Sensitive Data Protection

個人の名前や住所などの機密データが、誤ってまたは意図的にモデルに送信されたり、モデルのレスポンスに提供されたりする可能性があります。

Sensitive Data Protection は、機密データの検出、分類、匿名化を支援するサービスです。 Google Cloud Sensitive Data Protection は、機密要素、コンテキスト、ドキュメントを特定して、AI ワークロードとの間でのデータ漏洩のリスクを軽減できます。Sensitive Data Protection を Model Armor 内で直接使用して、センシティブ コンテキストを保持しながら、センシティブな要素を変換、トークン化、除去できます。Model Armor は、既存の検査テンプレートを受け入れることができます。これは、ビジネスとコンプライアンスのニーズに固有の機密データのスキャンと特定のプロセスを効率化するために、設計図のように機能する構成です。これにより、Sensitive Data Protection を使用する他のワークロードとの整合性と相互運用性を維持できます。

Model Armor には、機密データの保護の構成に 2 つのモードがあります。

  • 機密データの保護の基本構成: このモードでは、スキャンする機密データのタイプを直接指定することで、機密データの保護を簡単に構成できます。6 つのカテゴリ(CREDIT_CARD_NUMBERUS_SOCIAL_SECURITY_NUMBERFINANCIAL_ACCOUNT_NUMBERUS_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBERGCP_CREDENTIALSGCP_API_KEY)をサポートしています。基本構成では、検査オペレーションのみが許可され、Sensitive Data Protection テンプレートの使用はサポートされていません。詳細については、Sensitive Data Protection の基本構成をご覧ください。

  • Sensitive Data Protection の高度な構成: このモードでは、Sensitive Data Protection テンプレートの使用を有効にすることで、より柔軟なカスタマイズが可能になります。Sensitive Data Protection テンプレートは、より詳細な検出ルールと匿名化手法を指定できる事前定義された構成です。高度な構成では、検査オペレーションと匿名化オペレーションの両方がサポートされます。

機密データの保護では信頼レベルを設定できますが、他のフィルタの信頼レベルとは動作が若干異なります。Sensitive Data Protection の信頼レベルの詳細については、Sensitive Data Protection の一致の可能性をご覧ください。Sensitive Data Protection の一般的な詳細については、Sensitive Data Protection の概要をご覧ください。

悪意のある URL の検出

悪意のある URL は、正当なものに見せかけることが多いため、フィッシング攻撃、マルウェアの配布、その他のオンライン脅威に使用される強力なツールとなります。たとえば、PDF に埋め込まれた悪意のある URL が含まれている場合、LLM の出力を処理するダウンストリーム システムを侵害するために使用される可能性があります。

悪意のある URL の検出が有効になっている場合、Model Armor は URL をスキャンして、悪意があるかどうかを特定します。これにより、対策を講じて悪意のある URL が返されるのを防ぐことができます。

Model Armor の信頼レベル

信頼レベルは、責任ある AI の安全性カテゴリ(性的露骨性、危険性、ハラスメント、ヘイトスピーチ)、プロンプト挿入とジェイルブレイク、機密データ保護(トピック性を含む)に設定できます。

きめ細かいしきい値を許可する信頼レベルの場合、Model Armor は次のように解釈します。

  • 高: メッセージに高確率で詐欺の可能性があるコンテンツが含まれているかどうかを特定します。
  • 中程度以上: メッセージに中程度または高い確率で悪質なコンテンツが含まれているかどうかを特定します。
  • 低以上: メッセージに低い、中程度、高い確率のコンテンツが含まれているかどうかを特定します。

PDF スクリーニング

PDF のテキストには、悪意のあるコンテンツや機密性の高いコンテンツが含まれている場合があります。Model Armor は、PDF の安全性、プロンプト インジェクションやジェイルブレイクの試行、機密データ、悪意のある URL をスキャンできます。

Model Armor の階数設定

Model Armor テンプレートは個々のアプリケーションに柔軟性を提供しますが、多くの場合、組織はすべての AI アプリケーションにベースライン レベルの保護を確立する必要があります。ここでは、Model Armor の階数設定が使用されます。これらは、 Google Cloud リソース階層の特定の場所(組織、フォルダ、プロジェクト レベル)で作成されるすべてのテンプレートの最小要件を指定するルールとして機能します。

詳細については、Model Armor の階数設定をご覧ください。

次のステップ