Model Armor テンプレートを使用すると、Model Armor がプロンプトとレスポンスをスクリーニングする方法を構成できます。これらは、さまざまな安全性とセキュリティの信頼度に合わせてカスタマイズされたフィルタとしきい値のセットとして機能します。これにより、フラグが設定されたコンテンツを制御できます。
しきい値は信頼度を表します。つまり、Model Armor がプロンプトまたはレスポンスに不適切なコンテンツが含まれているとどの程度確信しているかを示します。たとえば、HIGH しきい値でヘイト コンテンツのプロンプトをフィルタするテンプレートを作成できます。これは、プロンプトにヘイト コンテンツが含まれているという高い信頼度を Model Armor が報告することを意味します。LOW_AND_ABOVE しきい値は、そのクレームの信頼度(LOW、MEDIUM、HIGH)を示します。
Model Armor フィルタ
Model Armor は、安全でセキュアな AI モデルの提供に役立つさまざまなフィルタを提供します。フィルタ カテゴリの内訳は次のとおりです。
責任ある AI の安全フィルタ
プロンプトとレスポンスは、次のカテゴリに対して前述の信頼度でスクリーニングできます。
カテゴリ
定義
ヘイトスピーチ
ID や保護されている属性をターゲットとする否定的なコメントや有害なコメント
嫌がらせ
他人をターゲットにした脅し、威圧表現、いじめ、虐待的な内容を含むコメント
性的に露骨な表現
性行為やわいせつな内容に関する情報が含まれるコンテンツ
危険なコンテンツ
有害な商品、サービス、アクティビティへのアクセスを促進または可能にします。
児童性的虐待のコンテンツ(CSAM)フィルタはデフォルトで適用され、オフにすることはできません。
プロンプト インジェクションとジェイルブレイクの検出
プロンプト インジェクションは、攻撃者がテキスト入力(プロンプト)に特別なコマンドを挿入して AI モデルを騙そうとするセキュリティ脆弱性です。これにより、AI が通常の指示を無視したり、機密情報を開示したり、意図しないアクションを実行したりする可能性があります。LLM のコンテキストでのジェイルブレイクとは、モデルに組み込まれている安全プロトコルと倫理ガイドラインをバイパスする行為を指します。これにより、LLM は有害、非倫理的、危険なコンテンツなど、本来回避するように設計されている回答を生成する可能性があります。
Sensitive Data Protection は、機密データの検出、分類、匿名化を支援する Google Cloud サービスです。Sensitive Data Protection は、機密要素、コンテキスト、ドキュメントを識別して、AI ワークロードに対するデータ漏洩のリスクを軽減します。Sensitive Data Protection を Model Armor 内で直接使用すると、機密性のないコンテキストを保持しながら、機密性の高い要素を変換、トークン化、秘匿化できます。Model Armor は、既存の検査テンプレートを受け入れることができます。これは、ビジネスとコンプライアンスのニーズに合わせて機密データのスキャンと識別のプロセスを効率化するブループリントのような構成です。これにより、Sensitive Data Protection を使用する他のワークロードとの間で一貫性と相互運用性を確保できます。
Model Armor には、Sensitive Data Protection の構成用に次の 2 つのモードがあります。
Sensitive Data Protection の基本構成: このモードでは、スキャンする機密データのタイプを直接指定することで、Sensitive Data Protection を簡単に構成できます。CREDIT_CARD_NUMBER、US_SOCIAL_SECURITY_NUMBER、FINANCIAL_ACCOUNT_NUMBER、US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER、GCP_CREDENTIALS、GCP_API_KEY の 6 つのカテゴリをサポートしています。基本構成では検査オペレーションのみが許可され、Sensitive Data Protection テンプレートの使用はサポートされていません。詳細については、Sensitive Data Protection の基本構成をご覧ください。
Sensitive Data Protection の高度な構成: このモードでは、Sensitive Data Protection テンプレートの使用を有効にすることで、柔軟性とカスタマイズ性が向上します。Sensitive Data Protection テンプレートは、より詳細な検出ルールと匿名化手法を指定できる事前定義済みの構成です。高度な構成では、検査と匿名化の両方のオペレーションがサポートされています。
PDF のテキストには、悪意のあるコンテンツや機密性の高いコンテンツが含まれている可能性があります。Model Armor は、PDF の安全性、プロンプト インジェクションとジェイルブレイクの試行、機密データ、悪意のある URL をスクリーニングできます。
Model Armor のフロア設定
Model Armor テンプレートは個々のアプリケーションに柔軟性を提供しますが、組織は多くの場合、すべての AI アプリケーションにわたって保護のベースライン レベルを確立する必要があります。ここで Model Armor のフロア設定が使用されます。これらは、 Google Cloud リソース階層の特定のポイント(組織、フォルダ、プロジェクト レベル)で作成されたすべてのテンプレートの最小要件を規定するルールとして機能します。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-09-05 UTC。"],[],[],null,["This page provides information about the key concepts for\nModel Armor.\n\nModel Armor templates\n\nModel Armor templates let you configure how Model Armor\nscreens prompts and responses. They function as sets of customized filters and\nthresholds for different safety and security confidence levels, allowing control\nover what content is flagged.\n\nThe thresholds represent confidence levels. That is, how confident Model Armor\nis about the prompt or response including offending content. For example, you\ncan create a template that filters prompts for hateful content with a `HIGH`\nthreshold, meaning Model Armor reports high confidence that the prompt\ncontains hateful content. A `LOW_AND_ABOVE` threshold indicates any level of\nconfidence (`LOW`, `MEDIUM`, and `HIGH`) in making that claim.\n\nModel Armor filters\n\nModel Armor offers a variety of filters to help you provide safe and\nsecure AI models. Here's a breakdown of the filter categories.\n\nResponsible AI safety filter\n\nPrompts and responses can be screened at the aforementioned confidence levels\nfor the following categories:\n\n| Category | Definition |\n|-------------------|----------------------------------------------------------------------------------------|\n| Hate Speech | Negative or harmful comments targeting identity and/or protected attributes. |\n| Harassment | Threatening, intimidating, bullying, or abusive comments targeting another individual. |\n| Sexually Explicit | Contains references to sexual acts or other lewd content. |\n| Dangerous Content | Promotes or enables access to harmful goods, services, and activities. |\n\nThe child sexual abuse material (CSAM) filter is applied by default and\ncannot be turned off.\n\nPrompt injection and jailbreak detection\n\nPrompt injection is a security vulnerability where attackers craft special\ncommands within the text input (the prompt) to trick an AI model. This can\nmake the AI ignore its usual instructions, reveal sensitive information, or\nperform actions it wasn't designed to do. Jailbreaking in the context of LLMs\nrefers to the act of bypassing the safety protocols and ethical guidelines that\nare built into the model. This allows the LLM to generate responses that it was\noriginally designed to avoid, such as harmful, unethical, and dangerous content.\n\nWhen prompt injection and jailbreak detection is enabled, Model Armor\nscans prompts and responses for malicious content. If it is detected,\nModel Armor blocks the prompt or response.\n\nSensitive Data Protection\n\nSensitive data, like a person's name or address, may inadvertently or\nintentionally be sent to a model or provided in a model's response.\n\nSensitive Data Protection is a Google Cloud service to help you discover,\nclassify, and de-identify sensitive data. Sensitive Data Protection\ncan identify sensitive elements, context, and documents to help you reduce the risk of data leakage going into and\nout of AI workloads. You can use Sensitive Data Protection\ndirectly within Model Armor to transform, tokenize, and redact sensitive elements while retaining non-sensitive context.\nModel Armor can accept existing inspection templates,\nwhich are configurations that act like blueprints to streamline the process of\nscanning and identifying sensitive data specific to your business and compliance\nneeds. This way, you can have consistency and interoperability between other\nworkloads that use Sensitive Data Protection.\n\nModel Armor offers two modes for Sensitive Data Protection\nconfiguration:\n\n- Basic Sensitive Data Protection configuration: This mode provides a simpler\n way to configure Sensitive Data Protection by directly specifying the types\n of sensitive data to scan for. It supports six categories, which are,\n `CREDIT_CARD_NUMBER`, `US_SOCIAL_SECURITY_NUMBER`, `FINANCIAL_ACCOUNT_NUMBER`,\n `US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER`, `GCP_CREDENTIALS`, `GCP_API_KEY`.\n Basic configuration only allows for inspection operations and does not support\n the use of Sensitive Data Protection templates. For more information, see\n [Basic Sensitive Data Protection configuration](/security-command-center/docs/sanitize-prompts-responses#basic_sdp_configuration).\n\n- Advanced Sensitive Data Protection configuration: This mode offers more\n flexibility and customization by enabling the use of Sensitive Data Protection\n templates. Sensitive Data Protection templates are predefined configurations\n that allow you to specify more granular detection rules and de-identification\n techniques. Advanced configuration supports both inspection and de-identification\n operations.\n\nWhile confidence levels can be set for Sensitive Data Protection, they operate\nin a slightly different way than confidence levels for other filters. For more\ninformation about confidence levels for Sensitive Data Protection, see\n[Sensitive Data Protection match likelihood](/sensitive-data-protection/docs/likelihood).\nFor more information about Sensitive Data Protection in general, see\n[Sensitive Data Protection overview](/sensitive-data-protection/docs/sensitive-data-protection-overview).\n\nMalicious URL detection\n\nMalicious URLs are often disguised to look legitimate, making them a potent tool\nfor phishing attacks, malware distribution, and other online threats. For\nexample, if a PDF contains an embedded malicious URL, it can be used to\ncompromise any downstream systems processing LLM outputs.\n\nWhen malicious URL detection is enabled, Model Armor scans URLs\nto identify if they're malicious. This lets you to take action and prevent\nmalicious URLs from being returned.\n\nModel Armor confidence levels\n\nConfidence levels can be set for responsible AI safety categories (that is, Sexually Explicit,\nDangerous, Harassment, and Hate Speech), Prompt Injection and Jailbreak, and Sensitive\nData Protection (including topicality).\n| **Note:** While confidence levels can be set for Sensitive Data Protection, they operate in a slightly different way than confidence levels for other filters. For more information about confidence levels for Sensitive Data Protection, see [Sensitive Data Protection match likelihood](/sensitive-data-protection/docs/likelihood).\n\nFor confidence levels that allow granular thresholds, Model Armor\ninterprets them as follows:\n\n- High: Identify if the message has content with a high likelihood.\n- Medium and above: Identify if the message has content with a medium or high likelihood.\n- Low and above: Identify if the message has content with a low, medium, or high likelihood.\n\n| **Note:** Confidence levels are applicable only to [prompt injection and jailbreak detection](#ma-prompt-injection) and [responsible AI safety filters](#ma-responsible-ai-safety-categories).\n\nDefine the enforcement type\n\nEnforcement defines what happens after a violation is detected. To configure how\nModel Armor handles detections, you set the enforcement type.\nModel Armor offers the following enforcement types:\n\n- **Inspect only**: It inspects requests that violate the configured settings, but it doesn't block them.\n- **Inspect and block**: It blocks requests that violate the configured settings.\n\nTo effectively use `Inspect only` and gain valuable insights, enable Cloud Logging.\nWithout Cloud Logging enabled, `Inspect only` won't yield any useful information.\n\nAccess your logs through Cloud Logging. Filter by the service name\n`modelarmor.googleapis.com`. Look for entries related to the operations that you\nenabled in your template. For more information, see\n[View logs by using the Logs Explorer](/logging/docs/view/logs-explorer-interface).\n\nPDF screening\n\nText in PDFs can include malicious and sensitive content. Model Armor\ncan screen PDFs for safety, prompt injection and jailbreak attempts, sensitive data,\nand malicious URLs.\n\nModel Armor floor settings\n\nWhile Model Armor templates provide flexibility for individual\napplications, organizations often need to establish a baseline level of\nprotection across all their AI applications. This is where Model Armor\nfloor settings are used. They act as rules that dictate minimum requirements\nfor all templates created at a specific point in the Google Cloud resource\nhierarchy (that is, at an organization, folder, or project level).\n\nFor more information, see [Model Armor floor settings](/security-command-center/docs/model_armor_floor_settings).\n\nWhat's next\n\n- Learn about [Model Armor overview](/security-command-center/docs/model-armor-overview).\n- Learn about [Model Armor templates](/security-command-center/docs/manage-model-armor-templates).\n- Learn about [Model Armor floor settings](/security-command-center/docs/model_armor_floor_settings).\n- [Sanitize prompts and responses](/security-command-center/docs/sanitize-prompts-responses).\n- Learn about [Model Armor audit logging](/security-command-center/docs/audit-logging-model-armor).\n- [Troubleshoot Model Armor issues](/security-command-center/docs/troubleshooting#ma)."]]