콘텐츠로 이동하기
보안 & 아이덴티티

AI 데이터 보안의 잃어버린 퍼즐 조각, '맥락(Context)'

2026년 3월 12일
Scott Ellis

Group Product Manager

Ivan Medvedev

Engineering Manager

Try Nano Banana 2

State-of-the-art image generation and editing

Try now

해당 블로그의 원문은 2026년 3월 13일 Google Cloud 블로그(영문)에 게재되었습니다. 


AI는 근본적으로 데이터에 의해 구동됩니다. 데이터는 모델을 훈련 및 튜닝하고, 에이전트가 계획하고 추론할 수 있게 하며, 최종 사용자와의 상호작용을 촉진하는 데 사용됩니다. 하지만 이는 민감한 데이터 유출, 원치 않는 데이터 수집, 데이터 오용과 같은 리스크를 초래할 수도 있습니다.

AI 시대에 조직은 수동 태깅과 단순한 키워드 매칭에 의존하는 보안 통제 방식 그 이상을 필요로 합니다. 이제 효과적인 데이터 보호는 맥락(context)을 이해하는 데 달려 있습니다.

이러한 과제를 해결할 수 있도록, Google Cloud의 민감한 정보 보호(Sensitive Data Protection, SDP)는 이제 고급 AI 기술을 활용하여 새로운 컨텍스트 분류기(의료 및 금융 포함)와 이미지 객체 탐지기(얼굴, 여권 등)를 지원합니다. 향상된 규칙 엔진은 이미지와 서식이 포함된 문서 내에서도 데이터의 맥락을 이해함으로써 민감한 정보를 더욱 효과적으로 식별하고 마스킹(masking)하여, AI 에이전트가 필요한 데이터에만 액세스하도록 보장합니다.

이제 정식 출시(GA)된 이러한 새로운 SDP 기능을 통해 초기 훈련 및 파인튜닝(fine-tuning)부터 실시간 에이전트 응답에 이르기까지 AI 여정의 모든 단계에서 데이터의 가치를 안전하게 활용할 수 있습니다. 개인식별정보(PII)와 같은 민감한 식별자를 선택적으로 제거하도록 지원함으로써, 관련 리스크 없이 모델에 고품질 데이터를 제공할 수 있습니다.

이러한 새로운 SDP 기능을 AI 전략에 통합할 수 있는 몇 가지 방법을 소개합니다.

Vertex AI에서의 AI 튜닝 및 데이터 무해화(Sanitization)

Gemini와 같은 모델을 자체 비즈니스 데이터로 튜닝할 때, 데이터에 숨겨진 새로운 리스크가 발생할 수 있습니다. Vertex AI에서 민감한 정보 보호(SDP) 기능은 관리형 데이터 검색(managed data discovery)을 활성화하여 이러한 리스크를 완화하는 데 도움을 줍니다. 이 기능은 조직이나 선택된 프로젝트를 지속적으로 스캔하여 비정형 이미지 데이터 내의 항목을 포함한 민감한 마커(표식)를 찾아냅니다.

예를 들어, SDP 검색은 고급 광학 문자 인식(OCR) 및 객체 탐지 기술을 사용하여 신용카드 번호, 얼굴, 사진이 부착된 신분증을 찾을 수 있습니다. 민감한 데이터가 발견되었을 때, 훈련 데이터셋의 가치를 떨어뜨리면서 해당 데이터를 폐기하는 대신, SDP를 사용하여 교정(비식별화) 처리된 버전을 생성할 수 있습니다.

사람 옆에 손상된 택배 상자가 있는 아래 이미지를 생각해 보세요. 이 시스템은 개인정보 보호를 위해 얼굴이나 사람 전체를 선택적으로 가리는 동시에, 훈련 목적으로 해당 이미지를 계속 유지할 수 있게 해줍니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_hFBqBYL.max-1700x1700.png

그림 1: 민감한 정보 보호(Sensitive Data Protection) 기능이 AI 훈련 데이터의 이미지에서 민감하거나 원치 않는 객체를 교정(비식별화) 처리합니다.

SDP가 AI 훈련 데이터에서 식별하고 교정(비식별화) 처리할 수 있는 객체 유형의 전체 목록을 확인해 보세요.

실시간 AI 상호작용 보안

모델을 튜닝하고 배포한 후에는 실시간 상호작용을 관리하는 새로운 과제에 직면하게 됩니다. 최종 사용자가 비즈니스 에이전트와 소통할 때, 모델이 대화를 처리하기 전에 모든 대화 내용이 적절하고 규정을 준수하는지 확인해야 합니다.

민감한 정보 보호(SDP) 기능은 자연어 맥락에 대한 향상된 이해를 제공하여 이 문제를 해결하는 데 도움을 줄 수 있습니다. 예를 들어, 사용자가 "팔이 부러져서 터치스크린을 사용할 수 없어요"라고 입력하면, 서비스는 특정 건강 관련 맥락(DOCUMENT_TYPE/CONTEXT/HEALTH)을 감지합니다. 이를 민감한 데이터로 인식하여, 입력 내용을 교정(비식별화) 처리하거나 대화를 완전히 차단하도록 시스템을 구성할 수 있습니다.

반대로, 사용자가 "와이파이가 고장 났어요"라고 말하면 시스템은 그 의미적(semantic) 차이를 인식합니다. 이것이 의학적 문제가 아니라 기술적 문제임을 이해하고, 에이전트가 문제 해결을 계속 진행할 수 있도록 허용합니다.

민감한 정보 보호(SDP) 기능이 AI 대화의 맥락을 확인하는 데 어떻게 도움이 되는지 알아보려면, 컨텍스트 분류 유형의 전체 목록을 확인해 보세요.

맥락과 규칙을 결합하여 정밀도 향상시키기

맥락 자체도 중요하지만, 복잡한 시나리오에서는 종종 이를 전통적인 탐지기와 결합해야 합니다. 정규 표현식(regex)과 같은 표준적인 접근 방식은 패턴을 찾는 데는 효과적이지만 미묘한 뉘앙스를 파악하지 못해 오탐지(false positive)를 유발하는 경우가 많습니다.

민감한 정보 보호(SDP)는 맥락과 패턴 매칭을 결합하여 이 문제를 해결합니다. 시스템은 ("금융", "의료", "법률"과 같은) 의미적 범주를 이해함으로써, 실제 리스크에 맞게 탐지 결과를 강화(boost)하거나 억제(suppress)할 수 있습니다.

예를 들어, "제 주문 번호는 75337이고 그다음은 324323입니다."라는 문장을 생각해 보세요. 여기서 서비스는 신뢰도가 낮은 GENERIC_ID를 탐지합니다. 문맥상 이것이 일반적인 주문/추적 번호임을 암시하므로, 민감한 정보 보호(SDP)는 교정 처리가 필요하지 않다고 판단합니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/2_ApYMEjc.max-600x600.png

그림 2: 민감한 정보 보호(Sensitive Data Protection) 기능이 맥락(Context)을 기반으로 데이터를 보존합니다.

이제 "제 지갑 번호는 75337이고 그다음은 324323입니다."라는 약간의 변화를 가정해 보세요. 숫자는 동일하지만, "지갑(wallet)"이라는 단어가 강력한 금융 관련 맥락(DOCUMENT_TYPE/CONTEXT/FINANCE) 신호를 발생시킵니다. 이 금융적 맥락은 해당 ID 탐지 결과에 대한 신뢰도를 높여, 교정이 필요한 민감한 데이터로 검증하게 합니다.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/3_J2do9Xy.gif

그림 3: 민감한 정보 보호(Sensitive Data Protection) 기능이 사용자 맥락(Context)을 기반으로 민감한 데이터를 교정 처리합니다.

AI 에이전트가 더욱 자율적으로 변하고 데이터 형식이 복잡해짐에 따라, 개발자는 비즈니스 리스크를 적절하게 완화하기 위해 정적인 규칙 이상의 것이 필요합니다. Google Cloud의 민감한 정보 보호(Sensitive Data Protection) 기능은 보안을 훼손하지 않으면서 이러한 기술들을 도입할 수 있도록 도와줍니다.

시작하기

민감한 정보 보호(Sensitive Data Protection)는 Model ArmorSecurity Command Center, 그리고 서비스형 컨택 센터(Contact Center as a Service, CCaaS)에서 데이터 검색과 보안 가드레일을 구동하는 기본 검색 및 검사 엔진입니다. Cloud Console에서 직접 새로운 인라인(in-line) 구성 및 테스트 인터페이스를 확인해 보시고, Model Armor와 함께 사용할 수 있도록 SDP 구성 방법을 알아보세요.

게시 위치