이 페이지는 Cloud Translation API를 통해 번역되었습니다.

Cloud Run에서 AI 앱 및 에이전트 호스팅

이 페이지는 다음과 같은 AI 사용 사례의 호스팅 플랫폼으로 Cloud Run을 사용하는 몇 가지 사용 사례를 강조합니다.

특정 AI 응용 분야가
AI 에이전트

Cloud Run에서 AI 애플리케이션 호스팅

AI 애플리케이션은 AI 모델을 사용하여 특정 작업을 실행하거나 수행합니다. 예를 들어 AI 애플리케이션은 AI 모델을 사용하여 문서를 요약하거나 벡터 데이터베이스를 사용하여 더 많은 컨텍스트를 가져오는 채팅 인터페이스일 수 있습니다.

Cloud Run은 AI 애플리케이션 워크로드에 완전 관리형 환경을 제공하는 애플리케이션 호스팅 인프라 중 하나입니다. Cloud Run은 Gemini API, Vertex AI 엔드포인트 또는 GPU 지원 Cloud Run 서비스에서 호스팅되는 모델과 같은 AI 모델과 통합됩니다. Cloud Run은 검색 증강 생성(RAG)을 위한 pgvector 확장 프로그램을 제공하는 두 데이터베이스인 PostgreSQL용 Cloud SQL 및 PostgreSQL용 AlloyDB와도 통합됩니다.

Cloud Run에서 AI 에이전트 호스팅

AI 에이전트는 고급 AI 모델의 인텔리전스와 도구 액세스를 결합하여 사용자를 대신해 사용자의 제어 하에 작업을 수행합니다.

비동기 작업 집합을 조정하고 여러 요청-응답 상호작용을 통해 사용자에게 정보를 제공하기 위해 AI 에이전트를 Cloud Run 서비스로 구현할 수 있습니다.

Cloud Run 기반 AI 에이전트 아키텍처

Cloud Run에 배포된 일반적인 AI 에이전트 아키텍처에는 Google Cloud 및 Google Cloud외부의 여러 구성요소가 포함될 수 있습니다.

Cloud Run 기반 AI 에이전트 아키텍처

서빙 및 조정: Cloud Run 서비스는 확장 가능한 API 엔드포인트 역할을 하며 인스턴스의 자동, 주문형, 신속한 확장을 통해 여러 동시 사용자를 처리할 수 있습니다. 이 서비스는 LangGraph 또는 에이전트 개발 키트(ADK)와 같은 AI 조정 프레임워크를 사용하여 핵심 에이전트 로직을 실행합니다. 이 레이어는 다른 구성요소에 대한 호출을 조정합니다. Cloud Run은 WebSockets를 사용하여 사용자에게 HTTP 응답을 스트리밍하는 것을 지원합니다. Cloud Run의 기본 제공 서비스 ID는 API 키를 관리하지 않고도 Google Cloud API를 호출할 수 있는 안전한 자동 사용자 인증 정보를 제공합니다.
AI 모델: 조정 레이어는 추론 기능을 위해 모델을 호출합니다. 여기에는 다음이 포함됩니다.
- Gemini API
- Vertex AI 엔드포인트에 배포된 커스텀 모델 또는 기타 파운데이션 모델
- 별도의 GPU 지원 Cloud Run 서비스에서 서빙되는 자체 미세 조정 모델
메모리: 에이전트는 컨텍스트를 유지하고 과거 상호작용에서 학습하기 위해 메모리가 필요한 경우가 많습니다.
- 단기 기억은 Cloud Run을 Memorystore for Redis에 연결하여 구현할 수 있습니다.
- 대화 기록을 저장하거나 사용자의 환경설정을 기억하는 장기 기억은 Cloud Run을 확장 가능한 서버리스 NoSQL 데이터베이스인 Firestore에 연결하여 구현할 수 있습니다.
데이터베이스 및 검색: 검색 증강 생성(RAG) 또는 구조화된 데이터 가져오기:
- Cloud Run을 pgvector 확장 프로그램이 있는 PostgreSQL용 Cloud SQL 또는 PostgreSQL용 AlloyDB와 같은 벡터 데이터베이스에 연결하여 특정 엔티티 정보를 쿼리하거나 임베딩에 대한 유사성 검색을 실행합니다.
도구: 조정자는 모델에 적합하지 않은 특정 작업을 수행하거나 외부 서비스, API 또는 웹사이트와 상호작용하기 위해 도구를 사용합니다. 여기에는 다음이 포함될 수 있습니다.
- 기본 유틸리티: 정확한 수학 계산, 시간 변환 또는 기타 유사한 유틸리티는 조정 Cloud Run 서비스에서 실행할 수 있습니다.
- API 호출: 다른 내부 또는 서드 파티 API를 호출합니다(읽기 또는 쓰기 액세스).
- 이미지 또는 차트 생성: 이미지 생성 모델을 사용하거나 차트 라이브러리를 실행하여 시각적 콘텐츠를 빠르고 효과적으로 만듭니다.
- 브라우저 및 OS 자동화: 컨테이너 인스턴스 내에서 헤드리스 또는 전체 그래픽 운영체제를 실행하여 에이전트가 웹을 탐색하고, 웹사이트에서 정보를 추출하거나, 클릭 및 키보드 입력을 사용하여 작업을 실행할 수 있습니다. Cloud Run 서비스는 화면의 픽셀을 반환합니다. Puppeteer와 같은 라이브러리를 사용하여 브라우저를 제어합니다.
- 코드 실행: Cloud Run은 다중 레이어 샌드박스가 있는 보안 환경을 제공하며 IAM 권한이 없거나 최소한의 권한으로 코드 실행 서비스에 구성할 수 있습니다. Cloud Run 작업을 사용하여 코드를 비동기적으로 실행할 수 있으며 동시 실행 수 1인 Cloud Run 서비스를 사용하여 동기적으로 실행할 수 있습니다.

다음 단계

Cloud Run에서 AI 에이전트 빌드 시청하기
codelab을 통해 LangChain 앱을 빌드하고 Cloud Run에 배포하는 방법 알아보기
에이전트 개발 키트(ADK)를 Cloud Run에 배포하는 방법 알아보기
ADK 에이전트와 함께 Cloud Run에서 MCP 서버를 사용하는 Codelab을 사용해 보세요.
Codelab을 통해 GPU를 사용하여 ADK 에이전트를 Cloud Run에 배포해 보세요.
에이전트 개발 키트 (ADK) 샘플에서 즉시 사용 가능한 에이전트 샘플을 찾습니다.
Cloud Run에서 Model Context Protocol(MCP) 서버 호스팅