Vertex AI의 안전

Gemini와 같은 생성형 AI 모델은 유해한 콘텐츠를 생성하거나, 민감한 정보를 유출하거나, 오용되는 등의 위험을 완화하기 위해 강력한 안전 조치가 필요합니다. Google Cloud의 Vertex AI 플랫폼은 Gemini 모델의 전반적인 안전을 구현하기 위한 다양한 도구와 관행을 제공합니다.

잠재적인 안전 위험 및 완화 전략

Gemini 모델을 배포할 때는 다양한 잠재적 위험을 식별하고 완화하는 것이 중요합니다. 이러한 위험을 이해하기 위한 사전 예방적 접근 방식을 사용하면 안전 조치를 보다 효과적으로 구현할 수 있습니다. 다층적인 안전 접근 방식은 다음을 완화하거나 방지할 수 있으므로 매우 중요합니다.

  • 콘텐츠 위험: 여기에는 유해한 콘텐츠, 욕설 및 성적 콘텐츠, 폭력 및 유혈 콘텐츠가 포함될 수 있습니다.
  • 브랜드 안전성 위험: 생성된 콘텐츠가 브랜드의 어조나 가치와 일치하지 않거나, 경쟁업체 또는 부적절한 제품을 지지하거나, 평판에 손상을 줄 수 있는 콘텐츠를 생성할 수 있습니다.
  • 정렬 위험: 생성된 콘텐츠가 관련성이 없거나 부정확할 수 있습니다.
  • 보안 및 개인 정보 보호 위험: 생성된 콘텐츠에서 민감한 학습 데이터나 프롬프트가 유출될 수 있으며, 악의적인 사용자가 모델이 안전 프로토콜을 재정의하거나 의도하지 않은 방식으로 작동하도록 강제하려고 시도할 수 있습니다.

배포된 모델은 이러한 잠재적 문제를 해결하기 위해 다양한 기능을 제공합니다.

  • 기본 모델과 구성할 수 없는 필터는 일반적인 안전망을 제공합니다.
  • 시스템 요청 사항은 선호하는 동작과 피해야 할 주제에 관해 모델에 직접적인 안내를 제공합니다.
  • 콘텐츠 필터를 사용하면 일반적인 유해 유형에 대한 특정 기준을 설정할 수 있습니다.
  • 필터로서의 Gemini는 이전 레이어에서 놓칠 수 있거나 더 많은 컨텍스트 인식 평가가 필요한 복잡하거나 미묘한 안전 문제를 위한 고급 맞춤설정 가능한 체크포인트를 제공합니다.
  • DLP는 모델이 민감한 정보에 액세스할 수 있는 경우 민감한 정보 유출이라는 심각한 위험을 구체적으로 해결합니다. 또한 맞춤 차단 목록을 만들 수 있습니다.

Vertex AI for Gemini에서 사용할 수 있는 안전 도구

Vertex AI는 Gemini 모델의 안전을 관리하는 여러 도구를 제공합니다. 각 기능의 작동 방식, 고려사항, 이상적인 사용 사례를 이해하면 맞춤형 안전 솔루션을 구축하는 데 도움이 됩니다.

접근 방법 작동 방식 보호 제공 위험 사용 시기
기본 설정: Gemini + 구성 불가능한 필터 Gemini 모델은 적대적 프롬프트에 직면한 경우에도 안전과 공정성을 고려하여 설계되었습니다. Google은 편향 및 유해성을 포함한 포괄적인 안전 평가에 투자했습니다. 기본 설정에는 아동 성적 학대 콘텐츠 (CSAM) 또는 저작권이 있는 콘텐츠 (낭독)와 관련된 콘텐츠의 생성을 방지하도록 설계된 독립적인 보호 레이어가 포함됩니다. 아동 성적 학대 콘텐츠 및 저작권에 대한 기본 보호 (낭독) Gemini의 기본 안전 설정이 조직의 요구사항을 충족하지 않을 수 있습니다. 모델이 환각을 일으키거나 안내를 따르지 않을 수 있습니다. 의도적인 공격자는 여전히 탈옥 및 프롬프트 인젝션에 성공할 수 있습니다. 악성 입력이 예상되지 않는 워크플로
구성 가능한 필터 Gemini의 사전 빌드된 콘텐츠 필터는 성적인 콘텐츠, 증오성 콘텐츠, 괴롭힘 콘텐츠, 위험한 콘텐츠와 같은 다양한 카테고리의 유해한 콘텐츠로부터 추가적인 보호를 제공합니다. 각 유해 카테고리(예: BLOCK_LOW_AND_ABOVE, BLOCK_MEDIUM_AND_ABOVE, BLOCK_ONLY_HIGH)을 반환합니다. 이는 모델과 독립적인 레이어이므로 브레이크아웃에 강합니다. 사전 정의된 카테고리의 위반에 대해 강력한 기능, 감도 조정 가능 사전 정의된 카테고리의 기준점 설정 외에 세부적인 맞춤설정이 부족합니다. 때때로 무해한 콘텐츠를 차단 (거짓양성)하거나 일부 유해한 콘텐츠를 놓칠 수 있습니다 (거짓음성). 프롬프트 필터링이 아닌 응답 필터링에만 사용할 수 있습니다. 사용자 대상 애플리케이션 또는 에이전트에 기본 수준의 안전을 제공합니다. 콘텐츠 및 브랜드 안전을 보장하는 것이 목표인 경우 콘텐츠 필터를 시스템 안내와 함께 사용해야 합니다.
시스템 안내 시스템 요청 사항 또는 서문을 통해 브랜드 및 콘텐츠 안전 가이드라인을 모델에 안내할 수 있습니다. 예를 들어 모델에 '정치와 관련된 질문에 대답하지 마'라고 지시하거나 특정 브랜드 보이스 및 어조 가이드라인을 준수하도록 지시할 수 있습니다. 시스템 요청 사항은 모델의 동작을 직접 안내합니다. 콘텐츠/브랜드 안전을 위해 맞춤설정할 수 있으며 매우 효과적일 수 있습니다. 모델이 환각을 일으키거나 안내를 따르지 않을 수 있습니다. 의도적인 공격자는 여전히 탈옥 및 프롬프트 인젝션에 성공할 수 있습니다. 특정 브랜드 가이드라인 또는 미묘한 콘텐츠 정책을 준수해야 하는 애플리케이션 또는 에이전트 콘텐츠 및 브랜드 안전을 보장하는 것이 목표인 경우 시스템 안내를 콘텐츠 필터와 함께 사용해야 합니다.
맞춤 차단 목록 및 민감한 정보 보호를 위한 DLP DLP API는 텍스트를 검사하여 다양한 사전 정의된 infoType 감지기와 맞춤 infoType 감지기를 기반으로 민감한 정보를 식별하고 분류할 수 있습니다. 식별되면 수정, 마스킹 또는 토큰화와 같은 익명화 기술을 적용할 수 있습니다. DLP API를 사용하여 키워드를 차단할 수도 있습니다. 입력 보호: 사용자 프롬프트나 데이터를 Gemini에 전송하기 전에 DLP API를 통해 텍스트를 전달하여 민감한 정보를 수정하거나 마스킹할 수 있습니다. 이렇게 하면 모델에서 민감한 데이터를 처리하거나 로깅하는 것을 방지할 수 있습니다. 출력 보호: Gemini가 실수로 민감한 정보를 생성하거나 공개할 위험이 있는 경우(예: PII가 포함된 소스 문서를 요약하는 경우) 모델의 출력을 DLP API로 검사한 후 사용자에게 전송할 수 있습니다. 욕설 또는 맞춤 단어에 대한 강력한 필터링 민감한 정보에 대한 강력한 필터링 지연 시간이 추가됩니다. 과도한 차단으로 이어질 수 있습니다. 민감한 정보에 액세스할 수 있는 상담사의 데이터 손실 방지
Gemini를 필터로 사용하기 Gemini를 사용하여 상담사 또는 앱의 프롬프트와 대답을 필터링할 수 있습니다. 여기에는 빠르고 비용 효율적인 Gemini 모델(예: Gemini Flash 또는 Flash Lite)에 두 번째 호출을 하여 사용자 또는 도구의 입력 또는 기본 Gemini 모델의 출력이 안전한지 평가하는 작업이 포함됩니다. 필터 모델에는 콘텐츠 안전, 브랜드 안전, 에이전트 불일치를 비롯한 정의된 정책에 따라 콘텐츠가 안전한지 안전하지 않은지 결정하라는 안내가 제공됩니다. 이를 통해 콘텐츠 안전 위반, 브랜드 안전 문제, 모델 드리프트, 환각에 대한 강력하고 맞춤설정 가능한 보호 기능을 제공하며 텍스트, 이미지, 동영상, 오디오를 분석하여 전체적인 이해를 도울 수 있습니다. 콘텐츠/브랜드 안전, 드리프트, 환각, 멀티모달 이해를 위해 매우 강력하고 맞춤설정이 가능합니다. 추가 비용 및 지연 시간 매우 드문 거짓음성이 발생할 수 있습니다. 사용자 대상 애플리케이션 또는 에이전트에 맞춤 안전 수준 제공
다층적 접근 방식: 구성 가능한 필터 + 시스템 안내 + DLP + Gemini를 필터로 사용 콘텐츠/브랜드 안전, 드리프트, 환각 현상, 멀티모달 이해를 위해 매우 강력하고 맞춤설정이 가능함 추가 비용 및 지연 시간 특히 적대적이고 악의적인 사용이 예상되는 사용자 대상 애플리케이션 또는 에이전트에 강력한 수준의 안전 제공

지속적인 안전 평가

AI 환경과 오용 방법은 끊임없이 진화하므로 AI 시스템에 지속적인 안전성 평가가 중요합니다. 정기적인 평가는 취약점을 식별하고, 완화 효과를 평가하고, 진화하는 위험에 적응하고, 정책 및 가치와의 일관성을 보장하고, 신뢰를 구축하고, 규정 준수를 유지하는 데 도움이 됩니다. 개발 평가, 보증 평가, 레드팀, 외부 평가, 벤치마크 테스트 등 다양한 평가 유형이 이를 달성하는 데 도움이 됩니다. 평가 범위는 콘텐츠 안전성, 브랜드 안전성, 관련성, 편향 및 공정성, 진실성, 적대적 공격에 대한 견고성을 포함해야 합니다. Vertex AI의 생성형 AI 평가 서비스와 같은 도구를 사용하면 이러한 노력을 지원할 수 있으며, 평가 결과를 기반으로 한 반복적인 개선이 책임감 있는 AI 개발에 필수적임을 강조합니다.