극한의 엣지 환경에서의 에이전틱 AI 보안: 오프라인에서도 강력한 회복탄력성 확보하기

Thiébaut Meyer
Director, Office of the CISO
Antoine Larmanjat
Distinguished engineer, Google Cloud
Get original CISO insights in your inbox
The latest on security from Google Cloud's Office of the CISO, twice a month.
Subscribe해당 블로그의 원문은 2026년 3월 17일 Google Cloud 블로그(영문)에 게재되었습니다.
만약 AI 에이전트(AI agents)의 인터넷 연결이 끊어지면 어떻게 될까요? 자율 주행 차량부터 산업 인프라에 이르기까지 핵심 시스템이 멈출 수 있습니다. 이처럼 제약이 많은 환경에서 에이전트는 정확한 컨텍스트 없이 현실 세계의 결정을 내려야 하는 '추론 손실(Inference loss)'의 위험에 처하게 됩니다.
엣지(Edge) 환경에 에이전트를 배포하는 것은 일종의 딜레마를 안겨줍니다. 바로 전력과 컴퓨팅 자원이 제한된 하드웨어에서 고성능 추론(High-performance reasoning)이 필요하다는 점입니다. Google Cloud에서는 이 문제를 우아한 성능 저하(Graceful degradation, 기능이 부분적으로 저하되더라도 전체 시스템의 필수적인 작동은 유지되는 방식)를 통해 해결함으로써, 에이전트가 가혹한 제약 조건 속에서도 안전하게 작동할 수 있도록 보장합니다.
컴퓨팅과 연결성의 균형 맞추기
기본적으로, 대역폭(Bandwidth)이 허용될 때는 복잡하고 새로운 형태의 추론을 위해 클라우드 상의 프론티어 모델(Frontier model, 예: Google Gemini)을 사용할 것을 권장합니다. 그러나 연결이 끊어지는 순간, 시스템은 상황에 맞춰 유연하게 대처하며(Degrade gracefully) 작동을 유지해야 합니다.
임베디드 로보틱스, 드론, 차량 시스템과 같은 고전력 엣지 디바이스의 경우, 이는 로컬 환경에서 실행 가능한 증류된 모델(Distilled model, 예: Gemma)로 전환하는 것을 의미합니다.
코인 셀 배터리로 구동되는 IoT 센서와 같은 극한의 엣지 디바이스에는 TinyML 접근 방식을 권장합니다. 이는 메인 프로세서를 깨우지 않고도 키워드 감지(Keyword spotting)나 간단한 이상 탐지(Anomaly detection)와 같은 단순 작업을 수행할 수 있도록 고도로 양자화된(Heavily quantized) 마이크로 모델을 활용하는 방식입니다. 또한, 교사-학생 방식(Teacher-student approach)을 통해 거대 모델을 소형화(Distillation)하여 적용하는 것도 가능합니다.

전력 제한은 우리가 하드웨어의 범위를 넓게 고려하도록 만드는 또 다른 요인입니다. 이에 도움이 될 수 있는 프로젝트 중 하나가 바로 Coral NPU입니다. 이는 Google DeepMind와 Google Research가 협력하여 개발한 머신러닝 가속기 코어로, 엣지 환경에서 에너지 효율적인 AI 구동을 위해 설계되었습니다.
네트워크 또한 대역폭이 극도로 줄어들 수 있고 전력 소모를 최소화해야 한다는 점에서 매우 중요한 요소입니다. 표준 HTTPS는 지연 시간에 민감한 에이전트에게는 종종 너무 무거울 수 있으며, 더 가볍고 빠른 프로토콜이 필요합니다. UDP/QUIC 기반의 HTTP/3로 전환하면 핸드셰이크(Handshake) 오버헤드를 해결할 수 있습니다.
또한, 로컬 메시 네트워크(Local mesh networks)에서 P2P(Peer-to-peer) 탐색과 협업을 가능하게 하는 에이전트 통신 프로토콜(Agent Communication Protocol, ACP)과 같은 특수 프로토콜을 사용하면 오버헤드와 지연 시간을 더욱 줄일 수 있습니다.
에이전트 신원을 위한 동적 신뢰
개방된 연결 환경에서 우리는 신원을 증명하기 위해 토큰을 사용합니다. 예를 들어, SPIFFE/SPIRE 프레임워크는 통일된 신원 제어 평면(Identity-control plane)을 제공하며, 통제된 에이전틱 AI 시스템 내에서 신뢰 구축을 장려합니다. 또한, 검증 가능한 자격 증명(Verifiable Credentials, VC)을 통해 추가적인 핵심 특성들을 전송하고 확인할 수 있습니다.
신뢰는 정적인 관점에서 보아서는 안 되므로, 우리는 에이전트의 '신뢰 점수(Trust score)'를 실시간으로 모니터링하고 평가하는 시스템을 구상하고 있습니다.
임베디드 환경에서의 신원 변조 및 스푸핑(Spoofing)을 방지하기 위해, 에이전트의 신원은 하드웨어 신뢰 루트(Hardware Root of Trust)에 고정될 수 있습니다. 신뢰 플랫폼 모듈(Trusted Platform Module, TPM) 및 보안 요소(Secure Elements) 또한 장치가 부팅되기도 전에 운영 체제와 에이전트 컨테이너를 암호학적으로 검증하는 데 사용될 수 있습니다.
신뢰는 정적인 관점에서 보아서는 안 되므로, 우리는 에이전트의 '신뢰 점수(Trust Score)'를 실시간으로 모니터링하고 평가하는 시스템을 구상하고 있습니다. 예를 들어, GDPR 인증을 받은 에이전트가 익명화된 인사이트 대신 원시 비디오 데이터를 내보내려 시도하면, 즉시 자격 증명을 취소하여 비정상적인 행위(Rogue behavior)를 방지할 수 있습니다.
프롬프트에서 물리적 위협으로: 익스플로잇 위험 완화
우리는 에이전트가 텍스트, 음성, 사진, 비디오 등 다양한 형태의 입력을 받을 수 있는 멀티모달(Multi-modal) 환경을 지향합니다. 하지만 이러한 유연성은 특히 강력하고 다층적인 보안 필터를 실행할 전력이 부족한 리소스 제한 시스템에서 사이버 공격에 취약하게 만들 수 있습니다.
프롬프트 인젝션(Prompt injection) 보호는 에이전트 보안의 완전히 새로운 영역입니다. 보안 수준은 잘못된 행동이나 자동화 정도, 또는 오작동이 에이전트가 작동하는 환경에 미칠 수 있는 영향에 비례해야 합니다. 에이전틱 시대의 보안은 단순한 데이터 유출 방지를 넘어 물리적 피해를 방지하는 것이 핵심입니다. 우리는 이를 '프롬프트 투 피지컬(Prompt-to-physical) 익스플로잇'이라고 부릅니다.
하지만 비정상 에이전트가 반드시 악의적인 의도를 가진 것은 아닐 수도 있습니다. 단순히 과도하게 최적화된(Over-optimized) 것일 수 있죠. 예를 들어 "최단 비행 시간"에 대해 보상을 받는 드론을 생각해 보십시오. 안전 장치가 없다면, 드론은 제한 구역을 가로질러 직선으로 비행하는 것이 최적의 경로라고 '추론'할 수도 있습니다.
이러한 행위를 방지하기 위해 추론 계층을 통제하는 의미 인식 보안이 필요합니다. 이는 모델과 도구 사이에 있는 결정론적(Deterministic) 안전 인터 등을 통해 달성할 수 있습니다.
이러한 제어 장치가 비정상적인 행위 발생 가능성 자체를 줄이는 것은 아니지만, 그로 인한 영향을 대폭 완화합니다. 예를 들어 코딩 에이전트가 파일 시스템 삭제를 시도하거나 로봇 팔이 안전 범위를 벗어난 움직임을 시도할 경우, 회로 차단기가 작동하여 에이전트가 안전 상태로 강제 복귀합니다.
마찬가지로, 에이전트는 데이터 결핍 상황을 처리할 수 있어야 합니다. 센서가 꺼진 경우, 에이전트는 새로운 지시를 환각하는 대신 데이터가 없음을 인지해야 합니다.
단절된 세상에서 에이전트를 계속 작동시키는 방법
진정한 운영상의 회복탄력성을 확보하려면 에이전트가 소프트웨어 모듈, 하드웨어 센서, 또는 네트워크 링크 등 내부 구성 요소의 고장을 능동적으로 관리해야 합니다.
대부분의 경우 시스템이 외부의 혼란에 직면하거나 인터넷 연결이 끊어지면 작동을 멈출 것입니다. 그러나 제약이 많은 환경에서 에이전트는 계속 작동해야 하며, 운영과 안전을 보장하기 위해 특정 기능이 저하된 모드를 고려해야 합니다.
Google Cloud는 '우아한 성능 저하(Graceful degradation)' 워크플로우를 지지합니다. 예를 들어, 에이전트는 보통 복잡한 추론을 위해 클라우드에 있는 거대 모델에 의존할 수 있습니다. 하지만 연결이 끊어질 경우 시스템은 현재 컨텍스트를 유지하면서 기본적인 기능을 수행하기 위해 더 작고 로컬에 내장된 모델로 자동 전환되어야 합니다.
모델 자체를 넘어, 이 전략은 기존 솔루션을 활용할 수 있습니다. 클라우드 동기화 없이 컨텍스트를 유지하기 위한 로컬 벡터 데이터베이스(예: SQLite-vec 또는 ChromaDB)를 사용하거나, 체화된 에이전트(Embodied agents, 드론이나 로봇 등)의 경우 엣지에서 서비스 품질(QoS)을 처리하기 위해 소프트웨어 라이브러리인 ROS 2 (Robot Operating System)를 활용할 수 있습니다.
운영적 회복탄력성을 고려할 때 에이전트의 수명 주기 관리 또한 염두에 두어야 합니다. 에이전트가 거치게 되는 다양한 운영 상태의 순서는 내부 구성 요소의 건전성에 따라 달라지기 때문입니다. 여기에는 단절된 환경에서도 오작동하는 에이전트에 패치를 적용하거나 작동을 중지시킬 수 있는 기능이 포함됩니다.
단일 에이전트에서 스쿼드(Squads) 체제로의 전환
에이전트가 단독으로 작동하는 경우는 드뭅니다. 수많은 센서의 군집이든 제조 라인이든, 에이전트는 팀(스쿼드, Squads) 단위로 작동하며 데이터를 공유해야 합니다. 이러한 협업과 오케스트레이션을 가능하게 하는 새로운 이벤트 기반 아키텍처가 등장하고 있습니다.
아키텍처 관점에서 볼 때, 연결이 끊어질 위험이 있는 상황에서 에이전트 간의 통신이 너무 장황해지면 과도한 네트워크 상호작용이 발생할 수 있습니다. 회복탄력성 있는 에이전트 성능을 유지하려면, 에이전트의 모든 내부 상태를 동일한 기기 내의 동일한 메모리 공간에 배치하는 것이 바람직합니다.
또 다른 과제는 엄격한 '알 권리(Need-to-know)' 기준에 따라 에이전트 간의 데이터 공유를 관리하는 것입니다. 이는 보안의 핵심인 최소 권한 원칙에 해당합니다. 아울러, 제한된 네트워크 대역폭을 초하지 않으면서도 그룹의 공동 목표를 조율하는 것이 필요합니다.
개발자는 또한 에이전트 그룹이 이벤트 기반 아키텍처를 사용하여 중앙 집중식으로 데이터를 공유해야 할 때 발생할 수 있는 상황을 고려해야 합니다. 클라우드 자원, 모델, 전력, 그리고 네트워크 연결이 충분히 제공되는 환경에서는 이러한 아키텍처가 이미 잘 알려져 있습니다. 하지만 자원이 제한된 환경에서 에이전트들이 상호작용해야 할 때는 더욱 정교한 엔지니어링 역량(Engineering prowess)이 요구됩니다.
예를 들면 다음과 같습니다.
- 기존의 일반적인 메시징 시스템(예: Kafka)을 대체하기 위한 NATS, RabbitMQ, Redpanda 활용
- 클라우드 스토리지 대신 로컬 환경에서 보호되고 공유되는 파일 시스템 사용
- 에이전트 간에 반드시 교환해야 하는 정보로만 통신의 장황함을 제한하는 에이전트 아키텍처 구축
Google Cloud가 제공하는 엣지 환경의 이점
대화형 챗봇에서 자율형 에이전트로의 전환은 단순한 소프트웨어 업그레이드를 넘어, 하드웨어를 인지하는 아키텍처의 혁명입니다. Google Cloud는 서버 랙(Server rack)과 엣지 사이의 간극을 메우기 위한 툴체을 구축하고 있습니다. 연결 상태에 따라 유연하게 확장되는 제미나이(Gemini) 및 젬마(Gemma) 모델부터 TPU 실리콘과 MuJoCo 디지털 트윈(Digital twins)에 이르기까지, 우리는 단순히 추론만 하는 것이 아니라 현실 세계에서 안전하게 행동하는(Act safely) 시스템을 구축하는 데 전념하고 있습니다.
네트워크 신호가 끊겼을 때 에이전트가 패닉에 빠진다면, 아직 실제 현장에 투입될 준비가 되지 않은 것입니다. 회복탄력성을 갖춘 AI를 위해서는 전력, 대역폭, 그리고 안전이라는 냉혹한 물리적 현실을 존중하는 아키텍처가 필요합니다. 지금 바로 귀사의 엣지 워크로드 감사를 시작해 보십시오. 에이전트가 클라우드에서 보여주는 지능만큼이나 실제 현장에서도 뛰어난 회복탄력성을 발휘할 수 있도록 보장해야 합니다.
AI 에이전트에 회복탄력성을 구축하는 방법에 대한 더 자세한 정보는 CISO 인사이트 허브(CISO Insights hub)에서 확인하실 수 있습니다.



