Google의 방식: 효과적인 AI 레드팀 구축하기

Daniel Fabian
Director, Red Teaming
Seth Rosenblatt
Security Editor, Google Cloud
Get original CISO insights in your inbox
The latest on security from Google Cloud's Office of the CISO, twice a month.
Subscribe해당 블로그의 원문은 2026년 3월 18일 Google Cloud 블로그(영문)에 게재되었습니다.
Google이 오늘날 가장 시급한 보안 이슈와 과제에 어떻게 대응하는지 전문가들로부터 직접 들어보는 "How Google Does It(구글의 방식)" 시리즈입니다. 이번 호에서는 구글 레드팀 총괄 디렉터인 다니엘 파비안(Daniel Fabian)이 공격자보다 먼저 AI 시스템의 취약점을 찾아내기 위해 활동하는 'Google AI 레드팀'의 교훈을 공유합니다.
구글 레드팀은 창설 이래 구글 보안의 핵심 축으로 자리 잡았습니다. 이들은 방어팀의 믿음직한 '스파링 파트너'가 되어 임직원과 사용자, 그리고 고객을 더욱 안전하게 보호하는 역할을 수행합니다. 기술 혁신의 속도에 맞춰 레드팀의 실무 방식도 끊임없이 진화하고 있으며, 그 노력의 일환으로 구글 내에 AI 전담 레드팀을 신설했습니다.
기존의 레드팀과 마찬가지로, AI 레드팀은 국가 주도 해킹 조직, 지능형 지속 위협(APT) 그룹부터 사이버 범죄자, 핵티비스트, 내부 위협자에 이르기까지 구글을 노리는 다양한 적대 세력을 가정하여 실제와 동일한 공격을 시뮬레이션합니다. 하지만 이들에게는 단 하나의 특별한 미션이 있습니다.
"AI 환경을 노리는 공격자의 머릿속으로 들어가 그들의 시각에서 허점을 찾아내는 것"
이러한 이유로 AI 레드팀은 복잡한 기술적 공격을 수행하는 데 필수적인 AI 전문 지식을 보유하고 있습니다. 이를 통해 오늘날 위협 인텔리전스 팀이 목격하는 실재하는 공격을 모방하고, 미래에 위협 행위자들이 시도할 수 있는 새로운 형태의 공격에도 대비합니다. 이러한 활동은 잠재적 취약점과 약점을 파악하고, 공격을 예측하여 더욱 강력하고 신속한 방어 체계를 개발하는 데 있어 매우 중요한 역할을 합니다.
전통적인 보안 방어는 방대한 과거 침해 사고 데이터를 기반으로 구축되지만, 다행스럽게도 (지금까지는) 실제 세계에서 AI 공격 사례가 많지 않기 때문에 이러한 종류의 레드팀 활동은 대비 태세를 갖추는 데 가장 필수적인 도구 중 하나입니다. 더 안전하고 보안이 강화된 AI를 구축하기 위해 구글의 레드팀이 수행하는 핵심 활동들을 구체적으로 살펴보겠습니다.
1. 현실적인 공격 시나리오 구축
현실적인 AI 공격 시나리오를 시뮬레이션할 때 AI 레드팀은 공격자처럼 생각해야 합니다. 훈련을 시작하기 위해 먼저 공격자가 누구인지, 그들의 역량은 어느 정도인지, 그리고 달성하고자 하는 목표는 무엇인지 정의합니다. 그런 다음 이 공격자가 무엇을 표적으로 삼을지, 그리고 성공하기 위해 어떤 단계를 거칠지 고려하면서 목표를 달성할 방법에 대한 아이디어를 구상합니다.
최신 적대적 위협 연구(Adversarial research)와 구글 전반에 걸친 AI 통합 현황을 검토하여, 아직 실행하기에는 이론에 불과한 공격과 실제로 실행 가능한 현실적인 공격을 구분합니다. 예를 들어, AI 에이전트가 단순히 질문에 답하는 수준을 넘어 복잡한 다단계 비즈니스 워크플로우를 처리하며 민감한 데이터를 수집하고 중요한 작업을 수행하게 됨에 따라, 프롬프트 인젝션 공격의 위험은 과거에 비해 상당히 커졌습니다.
AI와 관련된 대부분의 보안 문제는 모델이 제품에 통합되어 민감한 정보 접근 등 실제 행동 능력이 부여될 때 비로소 표면화됩니다.
시간이 지남에 따라 AI 시스템과 그 기능이 강력해지면서, 관련된 위협의 양상 또한 끊임없이 변화합니다. 따라서 AI 기반 실제 제품과 기능에서 현재 실현 가능한 공격이 무엇인지, 그리고 앞으로 어떤 공격이 가능해질지 아는 것은 우리에게 매우 중요합니다. 이러한 변화에 뒤처지지 않기 위해 구글은 맨디언트(Mandiant), 구글 위협 인텔리전스 그룹(GTIG)을 비롯한 위협 인텔리전스 팀과 트러스트 앤 세이프티(Trust and Safety) 팀의 콘텐츠 남용 레드팀, 그리고 Google DeepMind의 최신 적대적 위협 연구에서 도출된 인사이트를 적극적으로 활용합니다.
2. 결정론적 사고에서 확률적 사고로의 전환
AI에 대한 공격과 관련해 우리가 배운 가장 직관에 반하는 교훈 중 하나는, 그것이 우리가 익히 알고 있는 전통적인 사이버 보안의 결정론적이고 재현 가능한 익스플로잇(Exploits)보다 오히려 소셜 엔지니어링에 더 가깝다는 것입니다. AI 시스템은 확률적으로 작동하기 때문에 패턴 인식에 능하고, 무작위 노이즈와 불확실성에 대한 강한 내성을 가지고 있습니다.
하지만 공격의 측면에서 이러한 확률적 특성은 오히려 공격자에게 유리하게 작용할 수 있습니다. 공격자는 의도적으로 AI 모델을 탐색하며 어느 특정 시점에서 모델이 비정상적으로 작동하기 시작하는지 발견할 수 있습니다.
코드의 결함을 찾는 대신, AI에 대한 공격은 점점 더 모델이 스스로 가드레일을 위반하거나 제품이나 사용자의 이익에 반하는 행동을 하도록 설득하는 데 집중되고 있습니다. 이는 보안 관점에서 볼 때, 모델의 가중치를 탈취하려는 시도를 제외하면 독립적으로 고립된 모델 자체가 공격자에게 매력적인 표적이 되지 않는 이유이기도 합니다.
AI와 관련된 대다수의 보안 문제는 모델이 제품에 통합되어 민감한 정보 접근 등 실제 행동 권한을 부여받았을 때 비로소 표면화됩니다. 에이전트 환경에서 비즈니스 문서와 같은 민감한 정보에 대한 지식, 그리고 사용자의 프론트 도어를 열어주거나 음식을 주문하는 등 '현실 세계'와 상호작용하는 능력은 공격자들에게 매우 매력적인 표적이 됩니다.
이러한 변화에 대응하여 AI 레드팀은 공격 방식을 변경하여 실제 환경에서 활동하는 공격자들에게 가장 유효하고 현실적인 전술, 기법, 절차(TTPs)를 바탕으로 다양한 시스템 방어 기능을 테스트합니다. 우리는 프롬프트 공격(Prompt attacks), 훈련 데이터 추출(Training data extraction), 모델 백도어링(Backdooring the model), 적대적 예제(Adversarial examples), 데이터 오염(Data poisoning) 및 탈취(Exfiltration) 등 광범위한 공격을 시뮬레이션합니다.
기능, 위협 및 공격 동기가 변함에 따라 이 테스트 항목(List) 역시 지속적으로 구체화하고 다듬어 나갑니다. 기술이 엄청난 속도로 성숙하고 있는 AI 시대에는 우리의 방식을 정기적으로 평가하고 최신 상태로 유지하는 것이 특히 중요합니다. 오늘 비교적 무해해 보이는 공격도 내일은 엄청난 피해를 초래할 수 있기 때문입니다.
3. 전통적인 보안과 AI 전문 지식의 결합
우리는 현실적인 위협 시뮬레이션을 위해서는 가능한 한 전통적인 보안과 AI 전문 지식을 결합하는 것이 필수적이라고 믿습니다. 실제 위협 행위자는 조직의 경계를 따지지 않으며, 목표를 달성하기 위해 필요한 모든 수단을 동원할 것입니다. 어떤 상황에서는 AI를 겨냥한 표적 공격이 가장 손쉬운 경로(Path of least resistance)일 수 있고, 다른 상황에서는 전통적인 보안 익스플로잇(Exploits)이 그럴 수 있습니다.
우리는 레드팀 훈련 시 이러한 점을 고려하여 기존 레드팀과 정기적으로 협력하며, 아이디어와 기술 역량을 공유하여 현실적인 엔드 투 엔드(End-to-end) 위협 작전을 수행합니다. 예를 들어, 우리가 AI를 표적으로 삼기 위해 사용하는 일부 TTPs는 내부 시스템 장악(Compromising an internal system), 측면 이동(Lateral movement) 또는 관련 AI 파이프라인 접근 권한 확보 등 특정 내부 접근 권한을 필요로 할 수 있습니다.
이러한 시나리오에서 두 팀은 협력하여 AI 레드팀이 성공적으로 공격을 실행할 수 있는 유리한 위치(Position)를 확보합니다. 전반적으로 우리는 떠오르는 공격 패턴과 방식을 표준 위협 행위자 운영 절차에 통합하는 것이 잠재적인 문제를 식별하고 해결하며 방어 팀이 미래에 닥칠 위협에 대비하는 데 매우 효과적이라는 것을 확인했습니다.
4. 교전 수칙(Rules of engagement)을 잊지 마십시오.
구글의 최우선 순위는 언제나 사용자의 보안과 프라이버시입니다. 우리가 타겟으로 삼을 수 있는 대상에 제약은 많지 않지만, 우리가 할 수 있는 일과 해서는 안 되는 일을 명확히 규정하는 엄격한 교전 수칙(Rules of engagement)을 가지고 있습니다.
예를 들어, 우리의 훈련 범위는 알파벳(Alphabet)이 전적으로 소유하고 관리하는 시스템, 서비스 및 기기로 제한됩니다. 또한 공격 대상에 대해 강요, 뇌물 수수 또는 위협을 가할 수 없습니다. 무엇보다 중요한 점은 우리의 그 어떤 훈련에서도 실제 고객 데이터에 접근하지 않는다는 것입니다. 접근 권한을 얻을 수 있는 문제를 발견하더라도, 어떤 상황에서도 실제 고객 데이터가 노출되지 않도록 철저한 조치를 취합니다.
훈련의 현실성을 유지하기 위해(실제 위협 행위자는 우리의 교전 수칙을 따르지 않으므로), 공격 대상으로 삼아도 무방한 가상의 계정(Synthetic accounts)을 생성하는 등 실제와 유사한 시뮬레이션 환경을 구축합니다.
또한, 우리의 교전 수칙은 훈련 과정에서 발생하는 모든 활동에 대해 상세한 활동 로그를 남길 것을 요구합니다. 이 로그는 다음과 같은 세 가지 목적으로 사용됩니다.
- 실제 가동 중인 시스템과 데이터를 보호하고, 훈련에 참여하는 레드팀원들을 보호하기 위한 감사 추적(Auditable trail)을 제공합니다.
- 블루팀(방어팀)이 레드팀의 활동과 실제 공격을 명확하게 구분할 수 있도록 돕습니다.
- 훈련 종료 후, 블루팀이 탐지한 내용과 놓친 내용을 비교 분석하는 자료로 활용됩니다.
향후 과제: AI를 두려워하지 마십시오
많은 레드팀에게 복잡한 AI 시스템을 공격하는 것은 위압감을 주고 두려운 일일 수 있습니다. 하지만 우리는 가장 중요한 자산이 대부분의 레드팀이 이미 보유하고 있는 것, 즉 '강력한 공격자 마인드셋'이라는 것을 확인했습니다.
AI 시스템의 작동 방식을 최대한 깊이 이해하는 것이 도움이 될 수는 있지만, 프롬프트 인젝션과 같은 많은 공격은 컴퓨터 공학이나 수학 박사 학위를 필요로 하지 않습니다. 위협 행위자처럼 생각하고, 가장 가능성 높은 공격 경로와 전략, 도구 및 접근 방식을 상상해낼 수 있는 능력이 가장 현실적인 훈련을 이끌어내며, 이를 막는 방법에 대한 최선의 교훈을 줍니다.
AI를 활용한 공격은 블루팀에게 새로운 도전 과제를 안겨줍니다. 적대 세력이 네트워크상에서 기계적인 속도로 움직이기 때문에, 탐지 파이프라인이 SOC(보안 관제 센터)에 공격 신호를 보낼 때쯤이면 이미 민감한 정보가 유출되었을 수도 있습니다. 우리가 레드팀 활동에 AI를 도입하는 데 많은 노력을 기울이는 이유 중 하나는 실제 공격자들도 AI를 사용하고 있다는 것을 알고 있기 때문입니다. 그들은 이전보다 훨씬 빠르고 정교하며 거대한 규모로 공격을 수행하고 있습니다.
우리의 임무를 진전시킨다는 것은 배움을 멈추지 않는다는 것을 의미합니다. 우리는 모든 시뮬레이션 공격의 영향을 엄격하게 평가하고, 그 영향력과 구글의 탐지 및 예방 역량의 회복탄력성을 분석합니다. 이러한 결과는 문서화되어 관련 이해관계자 및 팀과 공유되며, 이를 통해 보안 접근 방식을 개선하고 연구를 촉진하며, 새롭지만 흥미로운 도전에 직면했을 때 개발 노력과 보안 투자의 방향을 제시합니다.
이 기사에는 클라우드 보안 팟캐스트(Cloud Security Podcast)의 에피소드인 “AI Red Teaming: Surprises, Strategies, and Lessons from Google” 및 “How We Attack AI? Learn More at Our RSA Conference Panel!”의 인사이트가 포함되어 있습니다.



