이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Google Cloud의 멀티 에이전트 AI 시스템

Last reviewed 2025-09-16 UTC

이 문서에서는 Google Cloud에서 강력한 멀티 에이전트 AI 시스템을 설계하는 데 도움이 되는 참조 아키텍처를 제공합니다. 멀티 에이전트 AI 시스템은 복잡하고 동적인 프로세스를 여러 전문 AI 에이전트가 공동으로 실행하는 개별 작업으로 분할하여 최적화합니다.

이 문서의 주요 대상은 클라우드에서 AI 인프라와 애플리케이션을 빌드하고 관리하는 설계자, 개발자, 관리자를 포함합니다. 이 문서에서는 AI 에이전트와 모델에 대한 기본적인 이해가 있다고 가정합니다. 이 문서에서는 AI 에이전트 설계 및 코딩에 관한 구체적인 안내를 제공하지 않습니다.

아키텍처

다음 다이어그램은 Google Cloud에 배포된 멀티 에이전트 AI 시스템의 예시 아키텍처를 보여줍니다.

Google Cloud의 멀티 에이전트 AI 시스템 아키텍처

아키텍처 구성요소

이전 섹션의 예시 아키텍처에는 다음 구성요소가 포함되어 있습니다.

구성요소	설명
프런트엔드	사용자는 서버리스 Cloud Run 서비스로 실행되는 채팅 인터페이스와 같은 프런트엔드를 통해 다중 에이전트 시스템과 상호작용합니다.
에이전트	이 예에서는 코디네이터 에이전트가 에이전트 AI 시스템을 제어합니다. 코디네이터 에이전트는 적절한 하위 에이전트를 호출하여 에이전트 흐름을 트리거합니다. 에이전트는 프로그래밍 언어와 런타임에 관계없이 에이전트 간 상호 운용성을 지원하는 Agent2Agent (A2A) 프로토콜을 사용하여 서로 통신할 수 있습니다. 아키텍처 예시에서는 순차적 패턴과 반복적 개선 패턴의 에이전트를 보여줍니다. 이 예의 하위 에이전트에 관한 자세한 내용은 에이전트 흐름 섹션을 참고하세요.
에이전트 런타임	AI 에이전트는 서버리스 Cloud Run 서비스, Google Kubernetes Engine (GKE)의 컨테이너화된 앱 또는 Vertex AI Agent Engine에 배포할 수 있습니다.
ADK	에이전트 개발 키트 (ADK)는 에이전트를 개발, 테스트, 배포하는 도구와 프레임워크를 제공합니다. ADK는 에이전트 생성의 복잡성을 추상화하여 AI 개발자가 에이전트의 논리와 기능에 집중할 수 있도록 지원합니다.
AI 모델 및 모델 런타임	추론 제공을 위해 이 예시 아키텍처의 에이전트는 Vertex AI의 AI 모델을 사용합니다. 아키텍처에서는 사용할 AI 모델의 대체 런타임으로 Cloud Run과 GKE를 보여줍니다.
Model Armor	Model Armor를 사용하면 Vertex AI 및 GKE에 배포된 모델의 입력과 응답을 검사하고 정리할 수 있습니다. 자세한 내용은 Google Cloud 서비스와의 Model Armor 통합을 참고하세요.
MCP 클라이언트, 서버, 도구	모델 컨텍스트 프로토콜 (MCP)은 에이전트와 도구 간의 상호작용을 표준화하여 도구에 대한 액세스를 용이하게 합니다. 각 에이전트-도구 쌍에 대해 MCP 클라이언트는 에이전트가 데이터베이스, 파일 시스템 또는 API와 같은 도구에 액세스하는 MCP 서버에 요청을 보냅니다.

에이전트 흐름

위 아키텍처의 멀티 에이전트 시스템 예시에는 다음과 같은 흐름이 있습니다.

사용자가 서버리스 Cloud Run 서비스로 실행되는 채팅 인터페이스와 같은 프런트엔드를 통해 프롬프트를 입력합니다.
프런트엔드는 프롬프트를 코디네이터 에이전트로 전달합니다.
코디네이터 에이전트는 프롬프트에 표현된 의도에 따라 다음 에이전트 흐름 중 하나를 시작합니다.
- Sequential:
  1. 태스크-A 하위 에이전트가 태스크를 실행합니다.
  2. 태스크 A 하위 에이전트가 태스크 A.1 하위 에이전트를 호출합니다.
- 반복적인 개선:
  1. task-B 하위 에이전트가 작업을 실행합니다.
  2. 품질 평가자 하위 에이전트는 작업 B 하위 에이전트의 출력을 검토합니다.
  3. 출력이 만족스럽지 않으면 품질 평가자가 프롬프트 개선 하위 에이전트를 호출하여 프롬프트를 개선합니다.
  4. 태스크 B 하위 에이전트는 향상된 프롬프트를 사용하여 작업을 다시 실행합니다.
  이 사이클은 출력이 만족스럽거나 최대 반복 횟수에 도달할 때까지 계속됩니다.
예시 아키텍처에는 필요한 경우 인간 사용자가 에이전트 흐름에 개입할 수 있는 human-in-the-loop 경로가 포함되어 있습니다.
태스크-A.1 하위 에이전트와 품질 평가자 하위 에이전트는 독립적으로 응답 생성기 하위 에이전트를 호출합니다.
응답 생성기 하위 에이전트는 응답을 생성하고, 검증 및 그라운딩 검사를 실행한 후 코디네이터 에이전트를 통해 최종 응답을 사용자에게 전송합니다.

사용된 제품 및 도구

이 참조 아키텍처에는 다음과 같은 Google Cloud 및 서드 파티 제품과 도구가 사용됩니다.

Cloud Run: Google의 확장 가능한 인프라에서 직접 컨테이너를 실행할 수 있게 해주는 서버리스 컴퓨팅 플랫폼입니다.
Vertex AI: ML 모델 및 AI 애플리케이션을 학습 및 배포하고 AI 기반 애플리케이션에서 사용하도록 LLM을 맞춤설정할 수 있게 해주는 ML 플랫폼입니다.
Google Kubernetes Engine(GKE): Google 인프라를 사용하여 컨테이너화된 애플리케이션을 대규모로 배포 및 운영하는 데 사용할 수 있는 Kubernetes 서비스입니다.
Model Armor: 프롬프트 인젝션, 민감한 정보 유출, 유해한 콘텐츠로부터 생성형 AI 및 에이전트 AI 리소스를 보호하는 서비스입니다.
에이전트 개발 키트 (ADK): AI 에이전트를 개발, 테스트, 배포하는 데 사용되는 도구 및 라이브러리 세트입니다.
Agent2Agent (A2A) 프로토콜: 프로그래밍 언어와 런타임에 관계없이 에이전트 간의 통신과 상호 운용성을 지원하는 개방형 프로토콜입니다.
모델 컨텍스트 프로토콜 (MCP): AI 애플리케이션을 외부 시스템에 연결하기 위한 오픈소스 표준입니다.

사용 사례

멀티 에이전트 AI 시스템은 비즈니스 목표를 달성하기 위해 여러 전문 기술 세트 간의 협업과 조정이 필요한 복잡한 사용 사례에 적합합니다. 멀티 에이전트 AI 시스템에 적합한 사용 사례를 파악하려면 비즈니스 프로세스를 분석하고 AI로 개선할 수 있는 특정 작업을 식별하세요. 비용 절감, 처리 속도 향상과 같은 구체적인 비즈니스 결과에 집중합니다. 이 접근 방식을 사용하면 AI에 대한 투자를 비즈니스 가치에 맞게 조정할 수 있습니다.

다음은 멀티 에이전트 AI 시스템의 사용 사례 예시입니다.

재무 상담사

맞춤형 주식 거래 추천을 제공하고 거래를 실행합니다. 다음 다이어그램은 이 사용 사례의 에이전트 흐름의 예를 보여줍니다. 이 예시에서는 순차적 패턴을 사용합니다.

멀티 에이전트 시스템의 재무 컨설턴트 사용 사례

이 다이어그램은 다음 흐름을 보여줍니다.

데이터 리트리버 에이전트는 신뢰할 수 있는 소스에서 실시간 및 과거 주가, 회사 재무 보고서, 기타 관련 데이터를 가져옵니다.
재무 분석기 에이전트는 데이터에 적절한 분석 및 차트 작성 기법을 적용하고, 가격 변동 패턴을 식별하고, 예측을 수행합니다.
주식 추천 에이전트는 분석 및 차트를 사용하여 사용자의 위험 프로필 및 투자 목표에 따라 특정 주식을 사고팔도록 맞춤 추천을 생성합니다.
거래 실행 에이전트는 사용자를 대신하여 주식을 사고팝니다.

조사 어시스턴트

조사 계획을 세우고, 정보를 수집하고, 조사를 평가하고 개선한 다음 보고서를 작성합니다. 다음 다이어그램은 이 사용 사례의 에이전트 흐름의 예를 보여줍니다. 이 예의 기본 흐름은 순차 패턴을 사용합니다. 이 예에는 반복적인 개선 패턴도 포함되어 있습니다.

멀티 에이전트 시스템의 리서치 어시스턴트 사용 사례

이 다이어그램은 다음 흐름을 보여줍니다.

계획 에이전트가 상세한 조사 계획을 만듭니다.
연구원 에이전트는 다음 작업을 완료합니다.
1. 연구 계획을 사용하여 적절한 내부 및 외부 데이터 소스를 식별합니다.
2. 필요한 데이터를 수집하고 분석합니다.
3. 연구 요약을 준비하고 평가자 에이전트에게 요약을 제공합니다.
연구원 에이전트는 평가자 에이전트가 연구를 승인할 때까지 이러한 작업을 반복합니다.
보고서 작성 에이전트가 최종 조사 보고서를 만듭니다.

공급망 최적화 도구

재고를 최적화하고, 배송을 추적하고, 공급망 파트너와 소통합니다. 다음 다이어그램은 이 사용 사례의 에이전트 흐름의 예를 보여줍니다. 이 예시에서는 순차적 패턴을 사용합니다.

멀티 에이전트 시스템의 공급망 최적화 도구 사용 사례

창고 관리자 에이전트는 인벤토리, 수요 예측, 공급업체 리드 타임을 기반으로 재입고 주문을 생성하여 최적의 재고 수준을 유지합니다.
- 상담사는 배송 추적기 상담사와 상호작용하여 배송을 추적합니다.
- 상담사는 공급업체 커뮤니케이터 상담사와 상호작용하여 주문 변경사항을 공급업체에 알립니다.
배송 추적기 에이전트는 공급업체의 물류 플랫폼 및 운송업체 시스템과 통합하여 주문이 적시에 효율적으로 처리되도록 합니다.
공급업체 커뮤니케이터 에이전트는 시스템의 다른 에이전트를 대신하여 외부 공급업체와 통신합니다.

설계 고려사항

이 섹션에서는 이 참조 아키텍처를 사용하여 보안, 안정성, 비용, 성능에 대한 특정 요구사항을 충족하는 토폴로지를 개발할 때 고려해야 하는 설계 요소, 권장사항, 권장사항을 설명합니다.

이 섹션의 안내는 일부일 뿐 모든 내용을 포함하지는 않습니다. 워크로드의 요구사항과 사용하는 Google Cloud 및 서드 파티 제품과 기능에 따라 추가로 고려해야 할 설계 요소와 장단점이 있을 수 있습니다.

시스템 설계

이 섹션에서는 배포에 사용할 Google Cloud 리전을 선택하고 적절한 Google Cloud 제품 및 도구를 선택하는 데 도움이 되는 안내를 제공합니다.

리전 선택

AI 애플리케이션의 Google Cloud 리전을 선택할 때는 다음 요소를 고려하세요.

각 리전의 Google Cloud 서비스 가용성
최종 사용자 지연 시간 요구사항
Google Cloud 리소스 비용
규제 기관 요구사항

애플리케이션에 적합한 Google Cloud 위치를 선택하려면 다음 도구를 사용하세요.

Google Cloud 리전 선택 도구: 탄소 발자국, 비용, 지연 시간과 같은 요인을 기반으로 애플리케이션과 데이터에 최적의 Google Cloud 리전을 선택하는 대화형 웹 기반 도구입니다.
Cloud Location Finder API: Google Cloud, Google Distributed Cloud, 기타 클라우드 제공업체에서 배포 위치를 찾는 프로그래매틱 방법을 제공하는 공개 API입니다.

에이전트 설계

이 섹션에서는 AI 에이전트 설계에 관한 일반적인 권장사항을 제공합니다. 에이전트 코드와 로직 작성에 관한 자세한 안내는 이 문서의 범위를 벗어납니다.

디자인 초점	권장사항
에이전트 정의 및 설계	에이전트 AI 시스템의 비즈니스 목표와 각 에이전트가 실행하는 작업을 명확하게 정의합니다. 요구사항에 가장 적합한 에이전트 설계 패턴을 선택합니다. ADK를 사용하여 에이전트 아키텍처를 효율적으로 만들고, 배포하고, 관리하세요.
상담사 상호작용	자연어 상호작용을 지원하도록 아키텍처에서 사람을 대상으로 하는 에이전트를 설계합니다. 각 에이전트가 종속 클라이언트에 작업과 상태를 명확하게 전달해야 합니다. 모호한 질문과 미묘한 상호작용을 감지하고 처리하도록 에이전트를 설계합니다.
컨텍스트, 도구, 데이터	에이전트가 멀티턴 상호작용과 세션 매개변수를 추적할 수 있는 충분한 컨텍스트를 보유하고 있는지 확인합니다. 에이전트가 사용할 수 있는 도구의 목적, 인수, 사용법을 명확하게 설명합니다. 할루시네이션을 줄이기 위해 에이전트의 대답이 신뢰할 수 있는 데이터 소스를 기반으로 하는지 확인합니다. 프롬프트가 주제에서 벗어난 경우와 같이 일치 항목이 없는 상황을 처리하는 로직을 구현합니다.

보안

이 섹션에서는 워크로드의 보안 요구사항을 충족하는 Google Cloud 의 토폴로지를 설계하기 위한 설계 고려사항과 권장사항을 설명합니다.

구성요소	설계 고려사항 및 권장사항
에이전트	AI 에이전트는 기존의 결정론적 보안 관행으로는 적절하게 완화할 수 없는 특정 고유하고 심각한 보안 위험을 초래합니다. Google에서는 결정론적 보안 제어의 강점과 동적, 추론 기반 방어를 결합하는 접근 방식을 권장합니다. 이 접근 방식은 인간 감독, 신중하게 정의된 에이전트 자율성, 관측 가능성이라는 세 가지 핵심 원칙에 기반합니다. 다음은 이러한 핵심 원칙에 부합하는 구체적인 권장사항입니다. 인간의 감독: 에이전트 AI 시스템이 때때로 실패하거나 예상대로 작동하지 않을 수 있습니다. 예를 들어 모델이 부정확한 콘텐츠를 생성하거나 에이전트가 부적절한 도구를 선택할 수 있습니다. 비즈니스에 중요한 에이전트 AI 시스템에서는 인간 감독자가 에이전트를 모니터링하고, 재정의하고, 일시중지할 수 있도록 인간 참여(Human-In-The-Loop) 흐름을 통합합니다. 예를 들어 인간 사용자는 에이전트의 출력을 검토하고, 출력을 승인하거나 거부하고, 오류를 수정하거나 전략적 결정을 내리기 위한 추가 안내를 제공할 수 있습니다. 이 접근 방식은 에이전트 AI 시스템의 효율성과 인간 사용자의 비판적 사고 및 도메인 전문성을 결합합니다. 에이전트 액세스 제어: Identity and Access Management (IAM) 컨트롤을 사용하여 에이전트 권한을 구성합니다. 각 에이전트에게 작업을 실행하고 도구 및 다른 에이전트와 통신하는 데 필요한 권한만 부여합니다. 이 접근 방식은 보안 침해의 잠재적 영향을 최소화하는 데 도움이 됩니다. 손상된 에이전트가 시스템의 다른 부분에 대한 액세스가 제한되기 때문입니다. 자세한 내용은 에이전트의 ID 및 권한 설정 및 배포된 에이전트의 액세스 관리를 참고하세요. 모니터링: 추론 프로세스, 도구 선택, 실행 경로를 포함하여 에이전트가 수행하는 모든 작업을 파악하는 포괄적인 추적 기능을 사용하여 에이전트 동작을 모니터링합니다. 자세한 내용은 Vertex AI Agent Engine에서 에이전트 로깅 및 ADK에서 로깅을 참고하세요. AI 에이전트 보안에 대한 자세한 내용은 AI 에이전트의 안전 및 보안을 참고하세요.
Vertex AI	공동 책임: 보안은 공동 책임입니다. Vertex AI는 기본 인프라를 보호하고 데이터, 코드, 모델을 보호하는 데 도움이 되는 도구와 보안 제어를 제공합니다. 서비스를 올바르게 구성하고, 액세스 제어를 관리하고, 애플리케이션을 보호할 책임은 사용자에게 있습니다. 자세한 내용은 Vertex AI 공유 책임을 참고하세요. 보안 제어: Vertex AI는 데이터 상주, 고객 관리 암호화 키 (CMEK), VPC 서비스 제어를 사용한 네트워크 보안, 액세스 투명성에 대한 요구사항을 충족하는 데 사용할 수 있는 Google Cloud 보안 제어를 지원합니다. 자세한 내용은 다음 문서를 참고하세요. Vertex AI의 보안 제어 생성형 AI를 위한 보안 제어 생성형 AI 및 제로 데이터 보관 안전: AI 모델은 때때로 악성 프롬프트에 대한 응답으로 유해한 대답을 생성할 수 있습니다. 안전을 강화하고 에이전트 AI 시스템의 잠재적 오용을 완화하기 위해 유해한 입력과 응답을 차단하는 콘텐츠 필터를 구성할 수 있습니다. 자세한 내용은 안전 및 콘텐츠 필터를 참고하세요. 프롬프트 인젝션 및 유해한 콘텐츠와 같은 위협에 대해 추론 요청과 응답을 검사하고 정리하려면 Model Armor를 사용하면 됩니다. Model Armor는 악성 입력 방지, 콘텐츠 안전성 확인, 민감한 정보 보호, 규정 준수 유지, 안전 및 보안 정책의 일관된 시행을 지원합니다. 모델 액세스: 조직 정책을 설정하여 Google Cloud 프로젝트에서 사용할 수 있는 AI 모델의 유형과 버전을 제한할 수 있습니다. 자세한 내용은 Model Garden 모델에 대한 액세스 제어를 참고하세요. 데이터 보호: 프롬프트 및 응답과 로그 데이터에서 민감한 정보를 탐색하고 익명화하려면 Cloud Data Loss Prevention API를 사용하세요. 자세한 내용은 AI 앱에서 민감한 정보 보호하기 동영상을 참고하세요.
MCP	MCP 및 보안을 참고하세요.
A2A	전송 보안: A2A 프로토콜은 프로덕션 환경에서 모든 A2A 통신에 HTTPS를 요구하고 전송 계층 보안 (TLS) 버전 1.2 이상을 권장합니다. 인증: A2A 프로토콜은 HTTP 헤더와 같은 표준 웹 메커니즘과 OAuth2 및 OpenID Connect와 같은 표준에 인증을 위임합니다. 각 에이전트는 에이전트 카드에 인증 요구사항을 광고합니다. 자세한 내용은 A2A 인증을 참고하세요.
Cloud Run	인그레스 보안 (프런트엔드 서비스용): 애플리케이션에 대한 액세스를 제어하려면 프런트엔드 Cloud Run 서비스의 기본 `run.app` URL을 사용 중지하고 리전 외부 애플리케이션 부하 분산기를 설정합니다. 애플리케이션으로 들어오는 트래픽을 부하 분산하는 것 외에도 부하 분산기는 SSL 인증서 관리를 처리합니다. 보호 기능을 추가하려면 Google Cloud Armor 보안 정책을 사용하여 서비스에 요청 필터링, DDoS 보호, 비율 제한을 제공하면 됩니다. 사용자 인증: 프런트엔드 Cloud Run 서비스에 대한 사용자 액세스를 인증하려면 IAP (Identity-Aware Proxy)를 사용합니다. 사용자가 IAP 보안 리소스에 액세스하려고 시도하면 IAP가 인증 및 승인 검사를 수행합니다. 자세한 내용은 Cloud Run용 IAP 사용 설정을 참고하세요. 컨테이너 이미지 보안: 승인된 컨테이너 이미지만 Cloud Run에 배포되도록 하려면 Binary Authorization을 사용하면 됩니다. 컨테이너 이미지의 보안 위험을 식별하고 완화하려면 Artifact Analysis를 사용하여 취약점 스캔을 자동으로 실행하세요. 자세한 내용은 컨테이너 스캔 개요를 참고하세요. 데이터 상주: Cloud Run은 데이터 상주 요구사항을 충족하도록 도와줍니다. Cloud Run Functions는 선택한 리전 내에서 실행됩니다. 컨테이너 보안에 관한 자세한 안내는 일반적인 Cloud Run 개발 팁을 참고하세요.
아키텍처의 모든 제품	데이터 암호화: 기본적으로 Google Cloud는 Google-owned and Google-managed encryption keys를 사용하여 저장 데이터를 암호화합니다. 사용자가 제어하는 암호화 키를 사용하여 에이전트의 데이터를 보호하려면 Cloud KMS에서 만들고 관리하는 CMEK를 사용하면 됩니다. Google Cloud Cloud KMS와 호환되는 서비스에 대한 자세한 내용은 호환 서비스를 참고하세요. 데이터 무단 반출 위험 완화: 데이터 무단 반출 위험을 줄이려면 인프라 주변에 VPC 서비스 제어 경계를 만드세요. VPC 서비스 제어는 이 참조 아키텍처에서 사용하는 모든 Google Cloud 서비스를 지원합니다. 액세스 제어: 토폴로지의 리소스에 대한 권한을 구성할 때는 최소 권한 원칙을 따르세요. 클라우드 환경 보안: Security Command Center의 도구를 사용하여 취약점을 감지하고, 위협을 식별 및 완화하고, 보안 상황을 정의 및 배포하고, 추가 분석을 위해 데이터를 내보냅니다. 배포 후 최적화: Google Cloud에 애플리케이션을 배포한 후 Active Assist를 사용하여 보안을 추가로 최적화하는 권장사항을 확인하세요. 권장사항을 검토하고 환경에 맞게 적용합니다. 자세한 내용은 Active Assist에서 추천 찾기를 참고하세요.

추가 보안 권장사항

안정성

이 섹션에서는 Google Cloud에서 배포를 위한 안정적인 인프라를 빌드하고 운영하기 위한 설계 고려사항 및 권장사항을 설명합니다.

구성요소	설계 고려사항 및 권장사항
에이전트	내결함성: 에이전트 수준 오류를 허용하거나 처리하도록 에이전트 시스템을 설계합니다. 가능한 경우 에이전트가 독립적으로 작동할 수 있는 분산형 접근 방식을 사용합니다. 실패 시뮬레이션: 에이전트 기반 AI 시스템을 프로덕션에 배포하기 전에 프로덕션 환경을 시뮬레이션하여 유효성을 검사합니다. 에이전트 간 조정 문제와 예기치 않은 동작을 식별하고 수정합니다. 오류 처리: 오류 진단 및 문제 해결을 지원하려면 로깅, 예외 처리, 재시도 메커니즘을 구현합니다.
Vertex AI	할당량 관리: Vertex AI는 Gemini 모델에 동적 공유 할당량 (DSQ)을 지원합니다. DSQ를 사용하면 사용한 만큼만 지불 요청을 유연하게 관리할 수 있으며 할당량을 수동으로 관리하거나 할당량 상향을 요청할 필요가 없습니다. DSQ는 활성 고객에게 지정된 모델과 리전의 사용 가능한 리소스를 동적으로 할당합니다. DSQ를 사용하면 개별 고객에 사전 정의된 할당량 제한이 없습니다. 용량 계획: 모델에 대한 요청 수가 할당된 용량을 초과하면 오류 코드 429가 반환됩니다. 비즈니스에 중요한 워크로드로서 일관되게 높은 처리량이 필요한 경우 프로비저닝된 처리량을 사용하여 처리량을 예약할 수 있습니다. 모델 엔드포인트 가용성: 여러 리전 또는 국가에서 데이터를 공유할 수 있는 경우 모델에 전역 엔드포인트를 사용할 수 있습니다.
Cloud Run	인프라 중단에 대한 강력한 기능: Cloud Run은 리전 서비스입니다. 데이터를 리전 내 여러 영역에 동기식으로 저장하고 영역 간에 트래픽을 자동으로 부하 분산합니다. 영역 중단이 발생해도 Cloud Run이 계속 실행되고 데이터가 손실되지 않습니다. 리전 서비스 중단이 발생하면 Google에서 서비스 중단을 해결할 때까지 서비스 실행이 중지됩니다.
아키텍처의 모든 제품	배포 후 최적화: Google Cloud에 애플리케이션을 배포한 후 Active Assist를 사용하여 안정성을 추가로 최적화하기 위한 추천을 받으세요. 권장사항을 검토하고 환경에 맞게 적용합니다. 자세한 내용은 Active Assist에서 추천 찾기를 참고하세요.

AI 및 ML 워크로드와 관련된 안정성 원칙 및 권장사항은 Well-Architected Framework의 AI 및 ML 관점: 안정성을 참조하세요.

작업

이 섹션에서는 이 참조 아키텍처를 사용하여 효율적으로 운영할 수 있는 Google Cloud 토폴로지를 설계할 때 고려해야 하는 요소를 설명합니다.

구성요소 설계 고려사항 및 권장사항

Vertex AI

구성요소	설계 고려사항 및 권장사항
Vertex AI	로그를 사용한 모니터링: 기본적으로 `stdout` 및 `stderr` 스트림에 기록된 에이전트 로그는 Cloud Logging으로 라우팅됩니다. 고급 로깅의 경우 Python 로거를 Cloud Logging과 통합할 수 있습니다. 로깅 및 구조화된 로그를 완전히 제어해야 하는 경우 Cloud Logging 클라이언트를 사용하세요. 자세한 내용은 에이전트 로깅 및 ADK의 로깅을 참고하세요. 지속적 평가: 에이전트의 출력과 에이전트가 출력을 생성하기 위해 취한 진행 경로 또는 단계를 정기적으로 정성적으로 평가합니다. 에이전트 평가를 구현하려면 Gen AI Evaluation Service 또는 ADK에서 지원하는 평가 방법을 사용하면 됩니다.
MCP	데이터베이스 도구: AI 에이전트의 데이터베이스 도구를 효율적으로 관리하고 에이전트가 연결 풀링 및 인증과 같은 복잡한 작업을 안전하게 처리하도록 하려면 데이터베이스용 MCP 도구 상자를 사용하세요. 데이터베이스 도구를 저장하고 업데이트할 수 있는 중앙 위치를 제공합니다. 에이전트 간에 도구를 공유하고 에이전트를 다시 배포하지 않고 도구를 업데이트할 수 있습니다. 툴박스에는 PostgreSQL용 AlloyDB와 같은 Google Cloud데이터베이스와 MongoDB와 같은 서드 파티 데이터베이스를 위한 다양한 도구가 포함되어 있습니다. 생성형 AI 모델: AI 에이전트가 Imagen, Veo와 같은 Google 생성형 AI 모델을 사용할 수 있도록 하려면 생성형 미디어 API용 MCP 서버를 사용하면 됩니다. Google Cloud Google 보안 제품 및 도구: AI 에이전트가 Google Security Operations, Google Threat Intelligence, Security Command Center와 같은 Google 보안 제품 및 도구에 액세스할 수 있도록 하려면 Google 보안 제품용 MCP 서버를 사용하세요.
아키텍처의 모든 Google Cloud 제품	추적: Cloud Trace를 사용하여 추적 데이터를 지속적으로 수집하고 분석합니다. 트레이스 데이터를 사용하면 복잡한 에이전트 워크플로 내에서 오류를 신속하게 식별하고 진단할 수 있습니다. Trace 탐색기 도구의 시각화를 통해 심층 분석을 수행할 수 있습니다. 자세한 내용은 에이전트 추적을 참고하세요.

로그를 사용한 모니터링: 기본적으로 stdout 및 stderr 스트림에 기록된 에이전트 로그는 Cloud Logging으로 라우팅됩니다. 고급 로깅의 경우 Python 로거를 Cloud Logging과 통합할 수 있습니다. 로깅 및 구조화된 로그를 완전히 제어해야 하는 경우 Cloud Logging 클라이언트를 사용하세요. 자세한 내용은 에이전트 로깅 및 ADK의 로깅을 참고하세요.

지속적 평가: 에이전트의 출력과 에이전트가 출력을 생성하기 위해 취한 진행 경로 또는 단계를 정기적으로 정성적으로 평가합니다. 에이전트 평가를 구현하려면 Gen AI Evaluation Service 또는 ADK에서 지원하는 평가 방법을 사용하면 됩니다.

MCP

데이터베이스 도구: AI 에이전트의 데이터베이스 도구를 효율적으로 관리하고 에이전트가 연결 풀링 및 인증과 같은 복잡한 작업을 안전하게 처리하도록 하려면 데이터베이스용 MCP 도구 상자를 사용하세요. 데이터베이스 도구를 저장하고 업데이트할 수 있는 중앙 위치를 제공합니다. 에이전트 간에 도구를 공유하고 에이전트를 다시 배포하지 않고 도구를 업데이트할 수 있습니다. 툴박스에는 PostgreSQL용 AlloyDB와 같은 Google Cloud데이터베이스와 MongoDB와 같은 서드 파티 데이터베이스를 위한 다양한 도구가 포함되어 있습니다.

생성형 AI 모델: AI 에이전트가 Imagen, Veo와 같은 Google 생성형 AI 모델을 사용할 수 있도록 하려면 생성형 미디어 API용 MCP 서버를 사용하면 됩니다. Google Cloud

Google 보안 제품 및 도구: AI 에이전트가 Google Security Operations, Google Threat Intelligence, Security Command Center와 같은 Google 보안 제품 및 도구에 액세스할 수 있도록 하려면 Google 보안 제품용 MCP 서버를 사용하세요.

아키텍처의 모든 Google Cloud 제품 추적: Cloud Trace를 사용하여 추적 데이터를 지속적으로 수집하고 분석합니다. 트레이스 데이터를 사용하면 복잡한 에이전트 워크플로 내에서 오류를 신속하게 식별하고 진단할 수 있습니다. Trace 탐색기 도구의 시각화를 통해 심층 분석을 수행할 수 있습니다. 자세한 내용은 에이전트 추적을 참고하세요.

AI 및 ML 워크로드와 관련된 운영 우수성 원칙 및 권장사항은 Well-Architected Framework의 AI 및 ML 관점: 운영 우수성을 참고하세요.

비용 최적화

이 섹션에서는 이 참조 아키텍처를 사용하여 빌드하는 Google Cloud 토폴로지의 설정 및 운영 비용을 최적화하는 방법을 안내합니다.

구성요소	설계 고려사항 및 권장사항
Vertex AI	비용 분석 및 관리: Vertex AI 비용을 분석하고 관리하려면 초당 쿼리 수 (QPS) 및 초당 토큰 수 (TPS)의 기준 측정항목을 만드는 것이 좋습니다. 그런 다음 배포 후 이러한 측정항목을 모니터링합니다. 기준은 용량 계획에도 도움이 됩니다. 예를 들어 기준을 사용하면 프로비저닝된 처리량이 필요할 수 있는 시점을 파악할 수 있습니다. 모델 선택: AI 애플리케이션에 선택한 모델은 비용과 성능에 직접적인 영향을 미칩니다. 특정 사용 사례에 대해 성능과 비용 간에 최적의 균형을 제공하는 모델을 식별하려면 모델을 반복적으로 테스트하세요. 가장 비용 효율적인 모델로 시작하여 점차 더 강력한 옵션으로 진행하는 것이 좋습니다. 비용 효율적인 프롬프트: 프롬프트(입력)의 길이와 생성된 대답 (출력)은 성능과 비용에 직접적인 영향을 미칩니다. 짧고 직접적이며 충분한 맥락을 제공하는 프롬프트를 작성합니다. 모델에서 간결한 대답을 얻을 수 있도록 프롬프트를 설계하세요. 예를 들어 '2문장으로 요약해 줘' 또는 '핵심 3가지 나열해 줘'와 같은 문구를 포함합니다. 자세한 내용은 프롬프트 설계 권장사항을 참고하세요. 컨텍스트 캐싱: 입력 토큰 수가 많은 반복 콘텐츠가 포함된 요청의 비용을 줄이려면 컨텍스트 캐싱을 사용하세요. 일괄 요청: 관련이 있는 경우 일괄 예측을 고려하세요. 일괄 요청은 표준 요청보다 비용이 저렴합니다.
Cloud Run	리소스 할당: Cloud Run 서비스를 만들 때 할당할 메모리 및 CPU 양을 지정할 수 있습니다. 기본 CPU 및 메모리 할당으로 시작합니다. 시간이 지남에 따라 리소스 사용량과 비용을 관찰하고 필요에 따라 할당을 조정합니다. 자세한 내용은 다음 문서를 참고하세요. 서비스의 메모리 한도 구성 서비스의 CPU 한도 구성 요금 최적화: CPU 및 메모리 요구사항을 예측할 수 있는 경우 약정 사용 할인 (CUD)을 통해 비용을 절약할 수 있습니다.
아키텍처의 모든 제품	배포 후 최적화: Google Cloud에 애플리케이션을 배포한 후 Active Assist를 사용하여 비용을 추가로 최적화하기 위한 추천을 받습니다. 권장사항을 검토하고 환경에 맞게 적용합니다. 자세한 내용은 Active Assist에서 추천 찾기를 참고하세요.

구성요소

설계 고려사항 및 권장사항

Vertex AI

비용 분석 및 관리: Vertex AI 비용을 분석하고 관리하려면 초당 쿼리 수 (QPS) 및 초당 토큰 수 (TPS)의 기준 측정항목을 만드는 것이 좋습니다. 그런 다음 배포 후 이러한 측정항목을 모니터링합니다. 기준은 용량 계획에도 도움이 됩니다. 예를 들어 기준을 사용하면 프로비저닝된 처리량이 필요할 수 있는 시점을 파악할 수 있습니다.

모델 선택: AI 애플리케이션에 선택한 모델은 비용과 성능에 직접적인 영향을 미칩니다. 특정 사용 사례에 대해 성능과 비용 간에 최적의 균형을 제공하는 모델을 식별하려면 모델을 반복적으로 테스트하세요. 가장 비용 효율적인 모델로 시작하여 점차 더 강력한 옵션으로 진행하는 것이 좋습니다.

비용 효율적인 프롬프트: 프롬프트(입력)의 길이와 생성된 대답 (출력)은 성능과 비용에 직접적인 영향을 미칩니다. 짧고 직접적이며 충분한 맥락을 제공하는 프롬프트를 작성합니다. 모델에서 간결한 대답을 얻을 수 있도록 프롬프트를 설계하세요. 예를 들어 '2문장으로 요약해 줘' 또는 '핵심 3가지 나열해 줘'와 같은 문구를 포함합니다. 자세한 내용은 프롬프트 설계 권장사항을 참고하세요.

컨텍스트 캐싱: 입력 토큰 수가 많은 반복 콘텐츠가 포함된 요청의 비용을 줄이려면 컨텍스트 캐싱을 사용하세요.

일괄 요청: 관련이 있는 경우 일괄 예측을 고려하세요. 일괄 요청은 표준 요청보다 비용이 저렴합니다.

Cloud Run

리소스 할당: Cloud Run 서비스를 만들 때 할당할 메모리 및 CPU 양을 지정할 수 있습니다. 기본 CPU 및 메모리 할당으로 시작합니다. 시간이 지남에 따라 리소스 사용량과 비용을 관찰하고 필요에 따라 할당을 조정합니다. 자세한 내용은 다음 문서를 참고하세요.

요금 최적화: CPU 및 메모리 요구사항을 예측할 수 있는 경우 약정 사용 할인 (CUD)을 통해 비용을 절약할 수 있습니다.

아키텍처의 모든 제품

배포 후 최적화: Google Cloud에 애플리케이션을 배포한 후 Active Assist를 사용하여 비용을 추가로 최적화하기 위한 추천을 받습니다. 권장사항을 검토하고 환경에 맞게 적용합니다. 자세한 내용은 Active Assist에서 추천 찾기를 참고하세요.

Google Cloud 리소스의 비용을 추정하려면 Google Cloud 가격 계산기를 사용하세요.

AI 및 ML 워크로드와 관련된 비용 최적화 원칙 및 권장사항은 Well-Architected Framework의 AI 및 ML 관점: 비용 최적화를 참조하세요.

성능 최적화

이 섹션에서는 Google Cloud 에서 워크로드의 성능 요구사항을 충족하는 토폴로지를 설계하기 위한 설계 고려사항과 권장사항을 설명합니다.

구성요소	설계 고려사항 및 권장사항
에이전트	모델 선택: 에이전트 AI 시스템의 모델을 선택할 때는 에이전트가 실행해야 하는 작업에 필요한 기능을 고려하세요. 프롬프트 최적화: 대규모로 프롬프트 성능을 빠르게 개선하고 최적화하며 수동 재작성의 필요성을 없애려면 Vertex AI 프롬프트 옵티마이저를 사용하세요. 최적화 도구를 사용하면 다양한 모델에서 프롬프트를 효율적으로 조정할 수 있습니다.
Vertex AI	모델 선택: AI 애플리케이션에 선택한 모델은 비용과 성능에 직접적인 영향을 미칩니다. 특정 사용 사례에 대해 성능과 비용 간에 최적의 균형을 제공하는 모델을 식별하려면 모델을 반복적으로 테스트하세요. 가장 비용 효율적인 모델로 시작하여 점차 더 강력한 옵션으로 진행하는 것이 좋습니다. 프롬프트 엔지니어링: 프롬프트 (입력)와 생성된 대답 (출력)의 길이는 성능과 비용에 직접적인 영향을 미칩니다. 짧고 직접적이며 충분한 맥락을 제공하는 프롬프트를 작성합니다. 모델에서 간결한 대답을 얻을 수 있도록 프롬프트를 설계하세요. 예를 들어 '2문장으로 요약해 줘' 또는 '핵심 3가지 나열해 줘'와 같은 문구를 포함합니다. 자세한 내용은 프롬프트 설계 권장사항을 참고하세요. 컨텍스트 캐싱: 입력 토큰 수가 많은 반복 콘텐츠가 포함된 요청의 지연 시간을 줄이려면 컨텍스트 캐싱을 사용하세요.
Cloud Run	리소스 할당: 성능 요구사항에 따라 Cloud Run 서비스에 할당할 메모리와 CPU를 구성합니다. 자세한 내용은 다음 문서를 참고하세요. 서비스의 메모리 한도 구성 서비스의 CPU 한도 구성 성능 최적화 가이드에 대한 자세한 내용은 일반적인 Cloud Run 개발 팁을 참고하세요.
아키텍처의 모든 제품	배포 후 최적화: Google Cloud에 애플리케이션을 배포한 후 Active Assist를 사용하여 성능을 추가로 최적화하기 위한 추천을 받으세요. 권장사항을 검토하고 환경에 맞게 적용합니다. 자세한 내용은 Active Assist에서 추천 찾기를 참고하세요.

AI 및 ML 워크로드와 관련된 성능 최적화 원칙 및 권장사항은 Well-Architected Framework의 AI 및 ML 관점: 성능 최적화를 참조하세요.

배포

멀티 에이전트 AI 시스템을 빌드하고 배포하는 방법을 알아보려면 다음 코드 샘플을 사용하세요. 이러한 코드 샘플은 학습과 실험을 위한 완전히 작동하는 시작점입니다. 프로덕션 환경에서 최적으로 작동하려면 특정 비즈니스 및 기술 요구사항에 따라 코드를 맞춤설정해야 합니다.

금융 자문가: 주식 시장 데이터를 분석하고, 거래 전략을 만들고, 실행 계획을 정의하고, 위험을 평가합니다.
리서치 어시스턴트: 리서치를 계획하고 수행하고, 결과를 평가하고, 리서치 보고서를 작성합니다.
보험 대리인: 멤버십을 만들고, 갓길 출동 서비스를 제공하고, 보험금 청구를 처리합니다.
검색 최적화 도구: 검색 키워드를 찾고, 웹페이지를 분석하고, 검색을 최적화하기 위한 제안을 제공합니다.
데이터 분석기: 데이터를 가져오고, 복잡한 조작을 실행하고, 시각화를 생성하고, ML 작업을 실행합니다.
웹 마케팅 에이전트: 도메인 이름을 선택하고, 웹사이트를 디자인하고, 캠페인을 만들고, 콘텐츠를 제작합니다.
Airbnb 플래너(A2A 및 MCP 사용): 특정 위치와 시간에 대해 Airbnb 등록정보를 찾고 날씨 정보를 가져옵니다.

ADK를 MCP 서버와 함께 사용하는 방법을 시작하기 위한 코드 샘플은 MCP 도구를 참고하세요.

다음 단계

에이전트 AI 시스템의 설계 패턴을 선택합니다.
Agent Garden에서 샘플 에이전트와 도구 살펴보기
에이전트 개발 키트 (ADK)를 사용하여 에이전트를 빌드합니다.
에이전트 배포 대상 Google Cloud
Cloud Run에서 A2A 에이전트 호스팅
Cloud Run에서 MCP 서버 호스팅
Google Cloud에서 AI 및 ML 워크로드와 관련된 아키텍처 원칙 및 권장사항에 대한 개요는 Well-Architected Framework의 AI 및 ML 관점을 참조하세요.
그 밖의 참조 아키텍처, 다이어그램, 튜토리얼, 권장사항을 알아보려면 Cloud 아키텍처 센터를 확인하세요.

참여자

저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자

기타 참여자:

앨런 블런트 | 제품 관리자
필리페 그라시오, 박사 | 고객 엔지니어, AI/ML 전문가
홀트 스키너 | Developer Advocate
잭 워더스푼 | Developer Advocate
조 샤이리 | Cloud Developer Relations Manager
메건 오키프 | Developer Advocate
사만다 헤 | 테크니컬 라이터
시르 메이르 라도르 | 개발자 관계 엔지니어링 관리자
빅터 단타스 | 생성형 AI 현장 솔루션 설계자
블라드 콜레스니코프 | 개발자 관계팀 엔지니어