이 페이지에서는 모델 아머의 주요 개념에 관한 정보를 제공합니다.
Model Armor 템플릿
Model Armor 템플릿을 사용하면 Model Armor에서 프롬프트와 응답을 선별하는 방식을 구성할 수 있습니다. 이러한 필터는 다양한 안전 및 보안 신뢰도 수준에 맞게 맞춤설정된 필터 및 기준점의 집합으로 작동하여 신고되는 콘텐츠를 제어할 수 있습니다.
임계값은 신뢰도 수준을 나타냅니다. 즉, Model Armor가 불쾌감을 주는 콘텐츠가 포함된 프롬프트나 응답에 대해 얼마나 확신하는지 나타냅니다. 예를 들어 HIGH
임곗값으로 증오심 표현 콘텐츠의 프롬프트를 필터링하는 템플릿을 만들 수 있습니다. 즉, 모델 아머는 프롬프트에 증오심 표현 콘텐츠가 포함되어 있을 확률이 높다고 보고합니다. LOW_AND_ABOVE
기준은 주장에 대한 신뢰도 수준 (LOW
, MEDIUM
, HIGH
)을 나타냅니다.
Model Armor 필터
Model Armor는 안전하고 보안이 강화된 AI 모델을 제공하는 데 도움이 되는 다양한 필터를 제공합니다. 필터 카테고리는 다음과 같이 분류됩니다.
책임감 있는 AI 안전 필터
프롬프트와 응답은 위에서 언급한 신뢰도 수준으로 다음 카테고리에 대해 선별할 수 있습니다.
카테고리 | 정의 |
---|---|
증오심 표현 | ID 또는 보호 속성을 대상으로 하는 부정적이거나 유해한 댓글 |
괴롭힘 | 다른 사람을 대상으로 위협하거나 괴롭히거나 모욕하는 댓글 |
선정적 | 성행위 또는 기타 외설적인 콘텐츠에 대한 참조가 포함 |
위험한 콘텐츠 | 유해한 상품, 서비스, 활동 홍보 및 이에 대한 액세스 지원 |
아동 성적 학대 콘텐츠 (CSAM) 필터는 기본적으로 적용되며 사용 중지할 수 없습니다.
프롬프트 인젝션 및 탈옥 탐지
프롬프트 삽입은 공격자가 텍스트 입력 (프롬프트) 내에서 특수 명령어를 만들어 AI 모델을 속이는 보안 취약점입니다. 이로 인해 AI가 일반적인 요청 사항을 무시하거나, 민감한 정보를 공개하거나, 수행하도록 설계되지 않은 작업을 수행할 수 있습니다. LLM 맥락에서의 탈옥은 모델에 내장된 안전 프로토콜 및 윤리 가이드라인을 우회하는 행위를 의미합니다. 이렇게 하면 LLM이 유해하고 비윤리적이며 위험한 콘텐츠와 같이 원래 피하도록 설계된 대답을 생성할 수 있습니다.
프롬프트 삽입 및 탈옥 감지가 사용 설정되면 Model Armor는 프롬프트와 대답에서 악성 콘텐츠를 검사합니다. 이러한 단어가 감지되면 모델 아머는 프롬프트 또는 응답을 차단합니다.
Sensitive Data Protection
사람의 이름이나 주소와 같은 민감한 정보가 의도치 않게 또는 의도적으로 모델에 전송되거나 모델의 대답에 제공될 수 있습니다.
Sensitive Data Protection은 민감한 정보를 검색, 분류, 익명처리하는 데 도움이 되는 Google Cloud 서비스입니다. Sensitive Data Protection은 민감한 요소, 컨텍스트, 문서를 식별하여 AI 워크로드로 들어오거나 나가는 데이터 유출 위험을 줄일 수 있습니다. Model Armor 내에서 직접 Sensitive Data Protection을 사용하여 민감하지 않은 컨텍스트를 유지하면서 민감한 요소를 변환, 토큰화, 수정할 수 있습니다. Model Armor는 기존 검사 템플릿을 허용합니다. 기존 검사 템플릿은 비즈니스 및 규정 준수 요구사항에 맞는 민감한 데이터를 검사하고 식별하는 프로세스를 간소화하는 청사진과 같은 구성입니다. 이렇게 하면 민감한 정보 보호를 사용하는 다른 워크로드 간에 일관성과 상호 운용성을 유지할 수 있습니다.
Model Armor는 민감한 정보 보호 구성을 위한 두 가지 모드를 제공합니다.
기본 민감한 정보 보호 구성: 이 모드는 스캔할 민감한 정보 유형을 직접 지정하여 민감한 정보 보호를 더 간단하게 구성할 수 있는 방법을 제공합니다.
CREDIT_CARD_NUMBER
,US_SOCIAL_SECURITY_NUMBER
,FINANCIAL_ACCOUNT_NUMBER
,US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
,GCP_CREDENTIALS
,GCP_API_KEY
등 6가지 카테고리를 지원합니다. 기본 구성은 검사 작업만 허용하며 Sensitive Data Protection 템플릿 사용을 지원하지 않습니다. 자세한 내용은 민감한 정보 보호 기본 구성을 참고하세요.고급 민감한 정보 보호 구성: 이 모드는 민감한 정보 보호 템플릿을 사용 설정하여 더 많은 유연성과 맞춤설정을 제공합니다. 민감한 정보 보호 템플릿은 더 세분화된 감지 규칙과 익명화 기법을 지정할 수 있는 사전 정의된 구성입니다. 고급 구성은 검사 및 비식별 작업을 모두 지원합니다.
민감한 정보 보호에 신뢰 수준을 설정할 수 있지만, 다른 필터의 신뢰 수준과는 약간 다른 방식으로 작동합니다. Sensitive Data Protection의 신뢰도 수준에 관한 자세한 내용은 Sensitive Data Protection 일치 가능성을 참고하세요. 민감한 정보 보호에 관한 일반적인 자세한 내용은 민감한 정보 보호 개요를 참고하세요.
악성 URL 감지
악성 URL은 합법적으로 보이도록 위장되는 경우가 많으므로 피싱 공격, 멀웨어 배포, 기타 온라인 위협에 효과적인 도구가 됩니다. 예를 들어 PDF에 삽입된 악성 URL이 포함되어 있으면 LLM 출력을 처리하는 모든 다운스트림 시스템을 손상시키는 데 이를 사용할 수 있습니다.
악성 URL 감지가 사용 설정되면 Model Armor는 URL을 스캔하여 악성인지 확인합니다. 이렇게 하면 조치를 취하고 악성 URL이 반환되지 않도록 할 수 있습니다.
Model Armor 신뢰도 수준
책임감 있는 AI 안전 카테고리 (예: 성적으로 노골적, 위험, 괴롭힘, 증오심 표현), 프롬프트 삽입 및 탈옥, 민감한 정보 보호 (주제 관련성 포함)에 대한 신뢰도 수준을 설정할 수 있습니다.
세분화된 기준을 허용하는 신뢰도 수준의 경우 Model Armor는 다음과 같이 해석합니다.
- 높음: 메시지에 사기 가능성이 높은 콘텐츠가 있는지 확인합니다.
- 중간 이상: 메일에 중간 또는 높은 확률의 콘텐츠가 있는지 식별합니다.
- 낮음 이상: 메일에 가능성이 낮은, 중간인, 높은 콘텐츠가 있는지 확인합니다.
PDF 검사
PDF의 텍스트에는 악성 콘텐츠와 민감한 콘텐츠가 포함될 수 있습니다. Model Armor는 PDF에서 안전, 프롬프트 삽입 및 탈옥 시도, 민감한 정보, 악성 URL을 검사할 수 있습니다.
Model Armor 층 설정
Model Armor 템플릿은 개별 애플리케이션에 유연성을 제공하지만, 조직은 종종 모든 AI 애플리케이션에 기준 수준의 보호를 설정해야 합니다. 여기서 Model Armor 하한 설정이 사용됩니다. 템플릿 요구사항은 Google Cloud 리소스 계층 구조의 특정 지점 (예: 조직, 폴더 또는 프로젝트 수준)에서 생성된 모든 템플릿에 적용되는 최소 요구사항을 지정하는 규칙으로 작동합니다.
자세한 내용은 모델 Armor 하한선 설정을 참고하세요.
다음 단계
- Model Armor 개요를 알아보세요.
- 모델 아머 템플릿에 대해 알아봅니다.
- 모델 아머 하한선 설정에 대해 알아보세요.
- 프롬프트 및 응답 정리
- Model Armor 감사 로깅에 대해 알아보세요.
- Model Armor 문제 해결하기