이 페이지에서는 Model Armor의 주요 개념에 관한 정보를 제공합니다.
Model Armor 템플릿
Model Armor 템플릿을 사용하면 Model Armor가 프롬프트와 응답을 검사하는 방식을 구성할 수 있습니다. 이러한 필터는 다양한 안전 및 보안 신뢰도 수준에 맞게 맞춤설정된 필터와 기준점으로 작동하여 플래그가 지정되는 콘텐츠를 관리할 수 있습니다.
임계값은 신뢰 수준을 나타냅니다. 즉, Model Armor가 불쾌감을 주는 콘텐츠가 포함된 프롬프트 또는 대답에 대해 얼마나 확신하는지입니다. 예를 들어 HIGH
임계값으로 증오심 표현 콘텐츠에 대한 프롬프트를 필터링하는 템플릿을 만들 수 있습니다. 즉, Model Armor는 프롬프트에 증오심 표현 콘텐츠가 포함되어 있다고 높은 신뢰도로 보고합니다. LOW_AND_ABOVE
임곗값은 해당 주장을 할 때의 모든 신뢰도 수준 (LOW
, MEDIUM
, HIGH
)을 나타냅니다.
Model Armor 필터
Model Armor는 안전한 AI 모델을 제공하는 데 도움이 되는 다양한 필터를 제공합니다. 필터 카테고리는 다음과 같습니다.
책임감 있는 AI 안전 필터
다음 카테고리의 프롬프트와 대답은 앞서 언급한 신뢰도 수준에서 검사할 수 있습니다.
카테고리 | 정의 |
---|---|
증오심 표현 | ID 또는 보호 속성을 대상으로 하는 부정적이거나 유해한 댓글 |
괴롭힘 | 다른 사람을 대상으로 위협하거나 협박하거나 괴롭히거나 모욕하는 댓글 |
음란물 | 성행위 또는 기타 외설적인 콘텐츠에 대한 참조가 포함 |
위험한 콘텐츠 | 유해한 상품, 서비스, 활동 홍보 및 이에 대한 액세스 지원 |
아동 성적 학대 콘텐츠 (CSAM) 필터는 기본적으로 적용되며 사용 중지할 수 없습니다.
프롬프트 인젝션 및 탈옥 탐지
프롬프트 삽입은 공격자가 텍스트 입력 (프롬프트) 내에서 특수 명령어를 만들어 AI 모델을 속이는 보안 취약점입니다. 이로 인해 AI가 일반적인 요청 사항을 무시하거나, 민감한 정보를 공개하거나, 수행하도록 설계되지 않은 작업을 수행할 수 있습니다. LLM의 맥락에서 jailbreaking은 모델에 내장된 안전 프로토콜과 윤리적 가이드라인을 우회하는 행위를 의미합니다. 이를 통해 LLM은 원래 피하도록 설계된 유해하거나 비윤리적이거나 위험한 콘텐츠와 같은 대답을 생성할 수 있습니다.
프롬프트 인젝션 및 탈옥 감지가 사용 설정되면 Model Armor가 프롬프트와 응답에서 악성 콘텐츠를 검사합니다. 감지되면 Model Armor가 프롬프트 또는 응답을 차단합니다.
Sensitive Data Protection
개인의 이름이나 주소와 같은 민감한 데이터가 실수로 또는 의도적으로 모델에 전송되거나 모델의 대답에 제공될 수 있습니다.
Sensitive Data Protection은 민감한 정보를 검색, 분류, 익명화하는 데 도움이 되는 Google Cloud 서비스입니다. Sensitive Data Protection은 민감한 요소, 컨텍스트, 문서를 식별하여 AI 워크로드로 들어가거나 나가는 데이터 유출 위험을 줄이는 데 도움이 됩니다. Model Armor 내에서 Sensitive Data Protection을 직접 사용하여 민감하지 않은 컨텍스트를 유지하면서 민감한 요소를 변환, 토큰화, 수정할 수 있습니다. Model Armor는 기존 검사 템플릿을 허용할 수 있습니다. 검사 템플릿은 비즈니스 및 규정 준수 요구사항과 관련된 민감한 데이터를 검색하고 식별하는 프로세스를 간소화하는 청사진과 같은 역할을 하는 구성입니다. 이렇게 하면 민감한 정보 보호를 사용하는 다른 워크로드 간에 일관성과 상호 운용성을 유지할 수 있습니다.
Model Armor는 민감한 정보 보호 구성에 두 가지 모드를 제공합니다.
기본 Sensitive Data Protection 구성: 이 모드는 스캔할 민감한 정보 유형을 직접 지정하여 Sensitive Data Protection을 더 간단하게 구성할 수 있는 방법을 제공합니다.
CREDIT_CARD_NUMBER
,US_SOCIAL_SECURITY_NUMBER
,FINANCIAL_ACCOUNT_NUMBER
,US_INDIVIDUAL_TAXPAYER_IDENTIFICATION_NUMBER
,GCP_CREDENTIALS
,GCP_API_KEY
의 6가지 카테고리를 지원합니다. 기본 구성에서는 검사 작업만 허용되며 Sensitive Data Protection 템플릿 사용은 지원되지 않습니다. 자세한 내용은 기본 Sensitive Data Protection 구성을 참고하세요.고급 Sensitive Data Protection 구성: 이 모드는 Sensitive Data Protection 템플릿을 사용할 수 있도록 지원하여 더 많은 유연성과 맞춤설정을 제공합니다. Sensitive Data Protection 템플릿은 더 세부적인 감지 규칙과 익명화 기법을 지정할 수 있는 사전 정의된 구성입니다. 고급 구성은 검사 및 익명처리 작업을 모두 지원합니다.
Sensitive Data Protection의 신뢰도 수준은 설정할 수 있지만 다른 필터의 신뢰도 수준과는 약간 다른 방식으로 작동합니다. Sensitive Data Protection의 신뢰도에 대한 자세한 내용은 Sensitive Data Protection 일치 가능성을 참고하세요. 일반적인 Sensitive Data Protection에 대한 자세한 내용은 Sensitive Data Protection 개요를 참고하세요.
악성 URL 탐지
악성 URL은 합법적인 것처럼 위장되는 경우가 많아 피싱 공격, 멀웨어 배포, 기타 온라인 위협에 강력한 도구가 됩니다. 예를 들어 PDF에 삽입된 악성 URL이 포함된 경우 LLM 출력을 처리하는 다운스트림 시스템을 손상시키는 데 사용될 수 있습니다.
악성 URL 감지가 사용 설정되면 Model Armor가 URL을 스캔하여 악성 여부를 식별합니다. 이를 통해 조치를 취하고 악성 URL이 반환되지 않도록 할 수 있습니다.
Model Armor 신뢰도 수준
책임감 있는 AI 안전 카테고리 (즉, 성적으로 노골적, 위험, 괴롭힘, 혐오 표현), 프롬프트 인젝션 및 탈옥, 민감한 데이터 보호 (주제 포함)에 대한 신뢰도 수준을 설정할 수 있습니다.
세부적인 기준을 허용하는 신뢰도 수준의 경우 Model Armor는 다음과 같이 해석합니다.
- 높음: 메시지에 가능성이 높은 콘텐츠가 있는지 식별합니다.
- 중간 이상: 메시지에 가능성이 중간 또는 높은 콘텐츠가 있는지 식별합니다.
- 낮음 이상: 메시지에 가능성이 낮음, 중간 또는 높음인 콘텐츠가 있는지 식별합니다.
강제 시행 유형 정의
시정 조치는 위반이 감지된 후 발생하는 일을 정의합니다. Model Armor가 감지를 처리하는 방식을 구성하려면 시행 유형을 설정합니다. Model Armor는 다음과 같은 시행 유형을 제공합니다.
- 검사만: 구성된 설정을 위반하는 요청을 검사하지만 차단하지는 않습니다.
- 검사 및 차단: 구성된 설정을 위반하는 요청을 차단합니다.
Inspect only
을 효과적으로 사용하고 유용한 정보를 얻으려면 Cloud Logging을 사용 설정하세요.
Cloud Logging이 사용 설정되어 있지 않으면 Inspect only
에서 유용한 정보를 얻을 수 없습니다.
Cloud Logging을 통해 로그에 액세스합니다. 서비스 이름 modelarmor.googleapis.com
으로 필터링합니다. 템플릿에서 사용 설정한 작업과 관련된 항목을 찾습니다. 자세한 내용은 로그 탐색기를 사용하여 로그 보기를 참조하세요.
PDF 검토
PDF의 텍스트에는 악의적이거나 민감한 콘텐츠가 포함될 수 있습니다. Model Armor는 PDF에서 안전, 프롬프트 인젝션 및 탈옥 시도, 민감한 정보, 악성 URL을 검사할 수 있습니다.
Model Armor 최소 기준 설정
Model Armor 템플릿은 개별 애플리케이션에 유연성을 제공하지만 조직은 모든 AI 애플리케이션에 걸쳐 기준 수준의 보호를 설정해야 하는 경우가 많습니다. 여기서 Model Armor 최소 기준 설정이 사용됩니다. 이러한 설정은 Google Cloud 리소스 계층 구조의 특정 지점 (조직, 폴더 또는 프로젝트 수준)에서 생성된 모든 템플릿에 대한 최소 요구사항을 지정하는 규칙으로 작용합니다.
자세한 내용은 Model Armor 최소 기준 설정을 참고하세요.
다음 단계
- Model Armor 개요에 대해 알아보기
- Model Armor 템플릿에 대해 알아보기
- Model Armor 최소 기준 설정에 대해 알아보기
- 프롬프트 및 응답 정리
- Model Armor 감사 로깅에 대해 알아보기
- Model Armor 문제 해결하기