Cloud Run에서 AI 앱 및 에이전트 호스팅

이 페이지는 다음과 같은 AI 사용 사례의 호스팅 플랫폼으로 Cloud Run을 사용하는 몇 가지 사용 사례를 강조합니다.

Cloud Run에서 AI 애플리케이션 호스팅

AI 애플리케이션은 AI 모델을 사용하여 특정 작업을 실행하거나 수행합니다. 예를 들어 AI 애플리케이션은 AI 모델을 사용하여 문서를 요약하거나 벡터 데이터베이스를 사용하여 더 많은 컨텍스트를 가져오는 채팅 인터페이스일 수 있습니다.

Cloud Run은 AI 애플리케이션 워크로드에 완전 관리형 환경을 제공하는 애플리케이션 호스팅 인프라 중 하나입니다. Cloud Run은 Gemini API, Vertex AI 엔드포인트 또는 GPU 지원 Cloud Run 서비스에서 호스팅되는 모델과 같은 AI 모델과 통합됩니다. Cloud Run은 검색 증강 생성(RAG)을 위한 pgvector 확장 프로그램을 제공하는 두 데이터베이스인 PostgreSQL용 Cloud SQLPostgreSQL용 AlloyDB와도 통합됩니다.

Cloud Run에서 AI 에이전트 호스팅

AI 에이전트는 고급 AI 모델의 인텔리전스와 도구 액세스를 결합하여 사용자를 대신해 사용자의 제어 하에 작업을 수행합니다.

비동기 작업 집합을 조정하고 여러 요청-응답 상호작용을 통해 사용자에게 정보를 제공하기 위해 AI 에이전트를 Cloud Run 서비스로 구현할 수 있습니다.

Cloud Run 기반 AI 에이전트 아키텍처

Cloud Run에 배포된 일반적인 AI 에이전트 아키텍처에는 Google Cloud 및 Google Cloud외부의 여러 구성요소가 포함될 수 있습니다.

Cloud Run 기반 AI 에이전트 아키텍처

  1. 서빙 및 조정: Cloud Run 서비스는 확장 가능한 API 엔드포인트 역할을 하며 인스턴스의 자동, 주문형, 신속한 확장을 통해 여러 동시 사용자를 처리할 수 있습니다. 이 서비스는 LangGraph 또는 에이전트 개발 키트(ADK)와 같은 AI 조정 프레임워크를 사용하여 핵심 에이전트 로직을 실행합니다. 이 레이어는 다른 구성요소에 대한 호출을 조정합니다. Cloud Run은 WebSockets를 사용하여 사용자에게 다시 HTTP 응답 스트리밍을 지원합니다. Cloud Run의 기본 제공 서비스 ID는 API 키를 관리하지 않고도 Google Cloud API를 호출할 수 있는 안전한 자동 사용자 인증 정보를 제공합니다.

  2. AI 모델: 조정 레이어는 추론 기능을 위해 모델을 호출합니다. 여기에는 다음이 포함됩니다.

  3. 메모리: 에이전트는 컨텍스트를 유지하고 과거 상호작용에서 학습하기 위해 메모리가 필요한 경우가 많습니다.

    • 단기 기억Cloud Run을 Memorystore for Redis에 연결하여 구현할 수 있습니다.
    • 대화 기록을 저장하거나 사용자의 환경설정을 기억하는 장기 기억은 Cloud Run을 확장 가능한 서버리스 NoSQL 데이터베이스인 Firestore에 연결하여 구현할 수 있습니다.
  4. 데이터베이스 및 검색: 검색 증강 생성(RAG) 또는 구조화된 데이터 가져오기:

    • pgvector 확장 프로그램이 있는 PostgreSQL용 Cloud SQL 또는 PostgreSQL용 AlloyDB와 같은 벡터 데이터베이스에 Cloud Run을 연결하여 특정 항목 정보를 쿼리하거나 임베딩에 대한 유사성 검색을 실행합니다.
  5. 도구: 조정자는 모델에 적합하지 않은 특정 작업을 수행하거나 외부 서비스, API 또는 웹사이트와 상호작용하기 위해 도구를 사용합니다. 여기에는 다음이 포함될 수 있습니다.

    • 기본 유틸리티: 정확한 수학 계산, 시간 변환 또는 기타 유사한 유틸리티는 조정 Cloud Run 서비스에서 실행할 수 있습니다.
    • API 호출: 다른 내부 또는 서드 파티 API를 호출합니다(읽기 또는 쓰기 액세스).
    • 이미지 또는 차트 생성: 이미지 생성 모델을 사용하거나 차트 라이브러리를 실행하여 시각적 콘텐츠를 빠르고 효과적으로 만듭니다.
    • 브라우저 및 OS 자동화: 컨테이너 인스턴스 내에서 헤드리스 또는 전체 그래픽 운영체제를 실행하여 에이전트가 웹을 탐색하고, 웹사이트에서 정보를 추출하거나, 클릭 및 키보드 입력을 사용하여 작업을 실행할 수 있습니다. Cloud Run 서비스는 화면의 픽셀을 반환합니다. Puppeteer와 같은 라이브러리를 사용하여 브라우저를 제어합니다.
    • 코드 실행: Cloud Run은 다중 레이어 샌드박스가 있는 보안 환경을 제공하며 IAM 권한이 없거나 최소한의 권한으로 코드 실행 서비스에 구성할 수 있습니다. Cloud Run 작업은 코드를 비동기적으로 실행하는 데 사용할 수 있으며 동시 실행 수 1Cloud Run 서비스는 동기 실행에 사용할 수 있습니다.

다음 단계