이 문서에서는 Google Agentspace 및 Vertex AI를 사용하여 검색 증강 생성 (RAG)을 지원하는 생성형 AI 애플리케이션을 실행하기 위한 인프라 설계에 사용할 수 있는 참조 아키텍처를 제공합니다. 이 참조 아키텍처에서는 관리형 서비스를 사용하고 단일 AI 에이전트를 배포하여 엔드 투 엔드 RAG 데이터 흐름을 지원하는 방법을 보여줍니다. Google Agentspace는 전사적 에이전트 오케스트레이션을 위한 통합 플랫폼 역할을 합니다. Vertex AI는 맞춤 에이전트의 개발 및 배포를 가속화하고 RAG의 효율적인 검색을 지원하는 관리형 데이터 스토어를 제공합니다.
이 문서의 주요 대상에는 생성형 AI 애플리케이션의 설계자, 개발자, 관리자가 포함됩니다. 이 문서에서는 AI, 머신러닝 (ML), 대규모 언어 모델 (LLM) 개념에 대한 기본 이해가 있다고 가정합니다. 이 문서에서는 생성형 AI 애플리케이션의 설계 및 개발 방법에 대한 안내를 제공하지 않습니다. 애플리케이션을 설계하는 방법에 대한 자세한 내용은 생성형 AI 애플리케이션 개발을 참고하세요.
아키텍처
다음 다이어그램은 이 문서에서 설명하는 아키텍처를 대략적으로 보여줍니다.
위 다이어그램의 아키텍처에는 데이터 수집과 서빙이라는 두 가지 하위 시스템이 있습니다.
- 데이터 수집 하위 시스템은 RAG에서 사용할 외부 소스의 데이터를 수집하고 준비합니다. 하위 시스템은 수집된 데이터의 임베딩을 생성하고 이를 사용하여 관리형 데이터 스토어에서 검색 가능한 벡터 색인을 빌드하고 유지합니다.
- 서빙 하위 시스템에는 생성형 AI 애플리케이션의 프런트엔드 및 백엔드 서비스가 포함됩니다.
- 프런트엔드 서비스는 애플리케이션 사용자와의 쿼리-응답 흐름을 처리하고 쿼리를 백엔드 서비스로 전달합니다.
- 백엔드 서비스는 Google Agentspace와 Vertex AI를 사용하여 RAG 프로세스를 오케스트레이션하는 AI 에이전트를 빌드하고 배포합니다. 이 프로세스에서는 색인이 생성된 벡터 데이터를 사용하여 맥락에 기반하고 책임감 있는 AI 안전 필터를 준수하는 대답을 생성합니다.
다음 다이어그램은 아키텍처를 세부적으로 보여줍니다.
다음 섹션에서는 앞의 아키텍처 다이어그램에 포함된 각 하위 시스템 내의 데이터 흐름을 설명합니다.
데이터 수집 하위 시스템
데이터 수집 하위 시스템은 외부 소스에서 데이터를 수집하고 RAG를 위해 데이터를 준비합니다. 데이터 수집 및 준비 흐름의 단계는 다음과 같습니다.
- 데이터 엔지니어는 외부 소스의 데이터를 Cloud Storage 버킷에 업로드합니다. 외부 소스는 애플리케이션, 데이터베이스 또는 스트리밍 서비스일 수 있습니다.
- 완료되면 Cloud Storage에서 Pub/Sub 주제에 메시지를 게시합니다.
- Pub/Sub 주제는 Cloud Run 함수에서 실행되는 처리 작업을 트리거합니다.
- Cloud Run 함수는 메타데이터를 JSON Lines (JSONL) 파일로 생성하고 저장하여 원시 데이터를 처리합니다. JSONL 파일은 별도의 Cloud Storage 버킷에 저장됩니다.
- 완료되면 Cloud Run 함수가 Pub/Sub 주제에 메시지를 게시합니다.
- Pub/Sub 주제는 Google Agentspace 내 관리 데이터 스토어에서 실행되는 처리 작업을 트리거합니다. 처리 작업은 Cloud Storage 버킷에서 수집된 원시 데이터와 메타데이터를 가져온 다음, 서비스 제공 중에 효율적으로 검색할 수 있도록 데이터를 파싱하고 청크로 나눕니다. Google Agentspace는 필수 구성 없이 벡터 임베딩을 자동으로 생성합니다.
서빙 하위 시스템
서빙 하위 시스템은 생성형 AI 애플리케이션과 사용자 사이의 질문-대답 흐름을 처리합니다. 서빙 흐름의 단계는 다음과 같습니다.
- 애플리케이션 사용자가 Cloud Run 프런트엔드 서비스 중 하나를 통해 쿼리를 전송합니다. 챗봇 UI, 검색 페이지, 모바일 애플리케이션과 같은 다양한 환경에 맞게 이러한 서비스를 맞춤설정할 수 있습니다.
- 프런트엔드 서비스가 쿼리를 수신한 다음 중앙 집중식 Cloud Run 백엔드 서비스로 쿼리를 전달합니다. 이 백엔드는 다양한 프런트엔드 클라이언트를 모두 지원하는 단일 통합 엔드포인트를 제공합니다. 백엔드 서비스는 검색어의 필터 구성 등 필요한 전처리도 실행합니다. 이 접근 방식은 프런트엔드에 로직을 투명하게 유지합니다.
- 백엔드 서비스는 Google Agentspace API 엔드포인트를 사용하여 준비된 요청을 Google Agentspace로 전송하여 RAG 워크플로를 시작합니다.
- Google Agentspace는 쿼리를 처리하기 위해 엔터프라이즈 검색 및 맞춤 에이전트를 사용하여 다음 작업을 실행합니다.
- 사용자 쿼리의 임베딩을 만듭니다.
- 관리 데이터 스토어의 색인 생성된 데이터에 대해 시맨틱 검색을 실행하여 가장 관련성 높은 정보를 찾습니다.
- 관리 Datastore에서 검색된 데이터를 사용하여 원래 질문을 보강하여 자세한 컨텍스트 기반 프롬프트를 만듭니다.
- 보강된 프롬프트를 기반으로 최종 대답을 생성합니다.
- Google Agentspace는 생성된 응답을 Cloud Run 백엔드 서비스로 전송합니다.
- 백엔드 서비스는 원래 요청을 보낸 프런트엔드 서비스에 최종 응답을 반환합니다. 프런트엔드 서비스는 애플리케이션 사용자에게 대답을 표시합니다.
사용 제품
이 참조 아키텍처에는 다음과 같은 Google Cloud 제품이 사용됩니다.
- Google Agentspace: 엔터프라이즈 내 모든 AI 에이전트의 중앙 레지스트리 및 상호작용 허브 역할을 하며 애플리케이션에서 원활하게 검색, 관리, 사용할 수 있도록 지원하는 관리형 플랫폼입니다.
-
Vertex AI: ML 모델 및 AI 애플리케이션을 학습 및 배포하고 AI 기반 애플리케이션에서 사용하도록 LLM을 맞춤설정할 수 있게 해주는 ML 플랫폼입니다.
- Vertex AI Agent Engine: 프로덕션에서 AI 에이전트를 실행, 관리, 확장할 수 있는 플랫폼입니다.
- Cloud Run: Google의 확장 가능한 인프라에서 직접 컨테이너를 실행할 수 있게 해주는 서버리스 컴퓨팅 플랫폼입니다.
- Pub/Sub: 메시지 생성 서비스를 메시지 처리 서비스와 분리하는 비동기식의 확장 가능한 메시징 서비스입니다.
- Cloud Storage: 다양한 데이터 유형에 적합한 저비용, 무제한 객체 저장소입니다. Google Cloud내부 및 외부에서 데이터에 액세스할 수 있고 중복성을 위해 여러 위치에 복제됩니다.
사용 사례
이 아키텍처는 생성형 AI 애플리케이션이 최신 정보에 액세스해야 하고 정확한 대답을 제공하기 위해 심층적인 컨텍스트 이해가 필요한 엔터프라이즈 시나리오를 위해 설계되었습니다.
이 아키텍처에는 두 가지 주요 엔터프라이즈 요구사항을 해결하기 위한 맞춤 데이터 수집 하위 시스템이 포함됩니다.
- 실시간 데이터 사용 가능: 이벤트 기반 파이프라인은 조직에서 새 데이터(예: 새 제품 가이드 또는 업데이트된 보고서)가 제공되는 즉시 처리합니다. 또한 파이프라인을 통해 관리형 데이터 스토어에서 정보를 사용할 수 있습니다. 이 설계는 데이터 가용성과 사용 간의 지연을 최소화하므로 정보가 오래되는 것을 방지하는 데 도움이 됩니다.
- 컨텍스트 검색 기능 강화: 맞춤 처리 작업을 통해 조직은 자체 비즈니스 로직을 적용하여 가치 있는 메타데이터로 데이터를 보강할 수 있습니다. Cloud Run 함수는 제품 라인, 작성자, 위치, 문서 유형과 같은 특정 속성으로 각 문서에 태그를 지정할 수 있습니다. 이 풍부한 메타데이터는 에이전트가 검색 범위를 좁히고 더 정확하고 상황에 맞는 답변을 제공하는 데 도움이 됩니다.
RAG는 LLM에서 생성되는 출력의 품질을 개선하는 데 효과적인 기법입니다. 이 섹션에서는 RAG 지원 생성형 AI 애플리케이션을 사용할 수 있는 사용 사례에 대한 예시를 제공합니다.
맞춤화된 제품 추천
한 온라인 쇼핑 사이트에서 LLM 기반 챗봇을 사용하여 고객의 제품 검색을 도와주거나 쇼핑 관련 도움을 제공하려고 합니다. 사용자의 질문은 사용자의 구매 행동 및 웹 사이트 상호작용 패턴에 대한 과거 데이터를 사용하여 증강될 수 있습니다. 이러한 데이터에는 구조화되지 않은 데이터 스토어에 저장된 사용자 리뷰와 피드백이 포함되거나 웹 분석 데이터 웨어하우스에 저장된 검색 관련 측정항목이 포함될 수 있습니다. 그런 다음 LLM이 증강된 질문을 처리해서 사용자에게 더 매력적이고 설득력 있게 보이는 맞춤화된 응답을 생성합니다.
임상 지원 시스템
병원의 의사는 적절한 치료와 처방을 결정하기 위해 환자의 의료 상태를 빠르게 분석하고 진단해야 합니다. Med-PaLM과 같은 의료용 LLM을 사용하는 생성형 AI 애플리케이션을 활용해서 임상 진단 과정 중 의사를 지원할 수 있습니다. 애플리케이션이 생성하는 응답은 병원의 전자 건강 기록(EHR) 데이터베이스 또는 PubMed와 같은 외부 기술 자료의 데이터와 함께 의사의 프롬프트를 컨텍스트에 맞게 조정함으로써 과거 환자 기록에서 근거를 확보할 수 있습니다.
효율적인 법률 조사
생성형 AI 기반의 법률 조사를 통해 변호사는 대량의 법령과 판례를 빠르게 검색하여 관련 법적 선례를 확인하거나 복잡한 법률 개념을 요약할 수 있습니다. 이러한 조사의 결과는 법률 회사의 독점 계약 모음, 과거 법률 소통 자료 및 내부 사건 기록에서 검색된 데이터로 변호사의 프롬프트를 증강함으로써 향상될 수 있습니다. 이러한 설계 접근 방식은 생성된 응답이 변호사의 전문 법률 도메인과 관련이 있도록 보장합니다.
설계 대안
이 섹션에서는 Google Cloud에서 RAG 지원 생성형 AI 애플리케이션에 대해 고려할 수 있는 대체 설계 접근 방식을 보여줍니다.
AI 인프라 대안
완전 관리형 벡터 검색 제품을 사용하는 아키텍처가 필요한 경우 대규모 벡터 검색을 위해 최적화된 서빙 인프라를 제공하는 Vertex AI 및 벡터 검색을 사용할 수 있습니다. 자세한 내용은 Vertex AI 및 벡터 검색을 사용하는 생성형 AI를 위한 RAG 인프라를 참고하세요.
PostgreSQL용 AlloyDB 또는 Cloud SQL과 같은 완전 관리형 Google Cloud 데이터베이스의 벡터 저장소 기능을 활용하려면 Vertex AI 및 PostgreSQL용 AlloyDB를 사용한 생성형 AI용 RAG 인프라를 참고하세요.
Ray, Hugging Face, LangChain과 같은 오픈소스 도구 및 모델을 사용하여 RAG 지원 생성형 AI 애플리케이션을 빠르게 빌드하고 배포하려면 GKE 및 Cloud SQL을 사용하는 생성형 AI를 위한 RAG 인프라를 참고하세요.
애플리케이션 호스팅 옵션
이 문서에 표시된 아키텍처에서 Cloud Run은 생성형 AI 애플리케이션 및 데이터 처리의 호스트입니다. Cloud Run은 개발자 중심의 완전 관리형 애플리케이션입니다. Vertex AI Agent Engine, GKE 클러스터 또는 Compute Engine VM에 애플리케이션을 배포할 수도 있습니다.
애플리케이션 호스트를 선택하려면 구성 유연성과 관리 노력 간의 다음 절충점을 고려하세요.
- 서버리스 Cloud Run 옵션을 사용하면 사전 구성된 관리 환경에 맞춤 서비스를 배포할 수 있습니다. 요청 사전 처리를 위한 프런트엔드 서비스와 맞춤 백엔드 로직을 호스팅하려면 이 아키텍처에서 맞춤 애플리케이션을 배포할 수 있어야 합니다.
- Vertex AI Agent Engine 옵션을 사용하면 에이전트 제공을 위해 설계된 완전 관리형 플랫폼을 사용합니다. Vertex AI Agent Engine은 관리 오버헤드를 줄이고 Google Agentspace와의 긴밀한 통합을 보장합니다.
- Compute Engine VM 및 GKE 컨테이너를 사용하면 기본 컴퓨팅 리소스를 관리해야 하지만 구성 유연성과 제어 기능이 더 커집니다.
적절한 애플리케이션 호스팅 서비스를 선택하는 방법에 대한 자세한 내용은 다음 문서를 참고하세요.
기타 인프라 옵션
Google Cloud에서 생성형 AI 애플리케이션에 사용할 수 있는 기타 인프라 옵션, 지원되는 모델, 그라운딩 기법에 대한 자세한 내용은 생성형 AI 애플리케이션을 위한 모델 및 인프라 선택을 참조하세요.
설계 고려사항
이 섹션에서는 Google Cloud 에서 보안 및 규정 준수, 안정성, 비용, 성능 측면의 특정 요구사항을 충족하는 RAG 지원 생성형 AI 아키텍처를 개발하는 데 도움이 되는 안내를 제공합니다. 이 섹션의 안내는 일부일 뿐 모든 내용을 포함하지는 않습니다. 사용되는 생성형 AI 애플리케이션과 Google Cloud 제품 및 기능의 특정 요구사항에 따라 추가적인 설계 요소와 장단점을 고려해야 할 수 있습니다.
Google Cloud에서 AI 및 ML 워크로드와 관련된 아키텍처 원칙 및 권장사항에 대한 개요는 Well-Architected Framework의 AI 및 ML 관점을 참조하세요.
보안, 개인 정보 보호, 규정 준수
이 섹션에서는 워크로드의 보안 및 규정 준수 요구사항을 충족하는 Google Cloud 의 토폴로지를 설계하기 위한 설계 고려사항과 권장사항을 설명합니다.
제품 |
설계 고려사항 및 권장사항 |
---|---|
Vertex AI |
Vertex AI는 데이터 상주, 데이터 암호화, 네트워크 보안, 액세스 투명성에 대한 요구사항을 충족하기 위해 사용할 수 있는 Google Cloud 보안 제어를 지원합니다. 자세한 내용은 다음 문서를 참고하세요. Google Agentspace Enterprise는 사용자가 요청한 데이터를 60일 이내에 삭제합니다. 자세한 내용은 Google Cloud에서 데이터 삭제를 참조하세요. 생성형 AI 모델은 특히 유해한 대답을 요청하는 프롬프트가 제공되는 경우 유해한 대답을 생성할 수 있습니다. 안전을 강화하고 잠재적인 오용을 완화하기 위해 유해한 대답을 차단하는 콘텐츠 필터를 구성할 수 있습니다. 자세한 내용은 안전 및 콘텐츠 필터를 참고하세요. |
Cloud Run |
기본적으로 Cloud Run은Google-owned and Google-managed encryption keys를 사용하여 데이터를 암호화합니다. 사용자가 제어하는 키를 사용하여 컨테이너를 보호하려면 고객 관리 암호화 키 (CMEK)를 사용하면 됩니다. 자세한 내용은 고객 관리 암호화 키 사용을 참고하세요. 승인된 컨테이너 이미지만 Cloud Run에 배포되도록 하려면 Binary Authorization을 사용하면 됩니다. Cloud Run은 데이터 상주 요구사항을 충족하도록 도와줍니다. Cloud Run 함수는 선택한 리전 내에서 실행됩니다. |
Cloud Storage |
기본적으로 Cloud Storage는 Google-owned and Google-managed encryption keys를 사용하여 저장된 데이터를 암호화합니다. 필요한 경우 CMEK를 사용하거나 고객 제공 암호화 키(CSEK)와 같은 외부 관리 방법을 사용하여 관리하는 자체 키를 사용할 수 있습니다. 자세한 내용은 데이터 암호화 옵션을 참고하세요. Cloud Storage는 버킷과 객체에 액세스할 수 있는 권한을 사용자에게 부여하기 위해 Identity and Access Management (IAM) 및 액세스 제어 목록 (ACL)의 두 가지 방법을 지원합니다. 대부분의 경우 버킷 및 프로젝트 수준에서 권한을 부여할 수 있는 IAM을 사용하는 것이 좋습니다. 자세한 내용은 액세스 제어 개요를 참고하세요. Cloud Storage를 통해 데이터 수집 하위 시스템에 로드하는 데이터에는 민감한 정보가 포함될 수 있습니다. Sensitive Data Protection을 사용하여 민감한 정보를 검색, 분류, 익명화할 수 있습니다. 자세한 내용은 Cloud Storage에 Sensitive Data Protection 사용을 참고하세요. Cloud Storage는 데이터 상주 요구사항을 충족하도록 도와줍니다. Cloud Storage는 사용자가 지정한 리전 내에 데이터를 저장하거나 복제합니다. |
Pub/Sub |
기본적으로 Pub/Sub는 Google-owned and Google-managed encryption keys를 사용하여 저장 중 및 전송 중인 메시지를 포함한 모든 메시지를 암호화합니다. Pub/Sub에서는 애플리케이션 계층에서 메시지 암호화를 위해 CMEK를 사용할 수 있습니다. 자세한 내용은 메시지 암호화 구성을 참고하세요. 데이터 상주 요구사항이 있는 경우 메시지 데이터가 특정 위치에 저장되도록 하려면 메시지 스토리지 정책을 구성하면 됩니다. |
AI 및 ML 워크로드와 관련된 보안 원칙 및 권장사항은 Well-Architected Framework의 AI 및 ML 관점: 보안을 참조하세요.
안정성
이 섹션에서는 Google Cloud에서 배포를 위한 안정적인 인프라를 빌드하고 운영하기 위한 설계 고려사항 및 권장사항을 설명합니다.
제품 |
설계 고려사항 및 권장사항 |
---|---|
Vertex AI |
Vertex AI는 저장 데이터 상주를 보장합니다. Vertex AI는 선택한 Google Cloud 위치 내의 관리형 데이터 스토어에 RAG용 데이터를 포함한 소스 데이터를 저장합니다. 스토리지에서 처리를 분리하는 것은 플랫폼이 높은 신뢰성과 규정 준수를 모두 제공하는 방식의 기본적인 측면입니다. |
Cloud Run |
Cloud Run은 한 리전 내 여러 영역에 데이터를 동기식으로 저장하는 리전 서비스입니다. 서비스는 영역 간에 트래픽을 자동으로 부하 분산합니다. 영역 서비스 중단이 발생해도 Cloud Run 작업이 계속 실행되고 데이터가 손실되지 않습니다. 리전 서비스 중단이 발생하면 Google에서 서비스 중단을 해결할 때까지 Cloud Run 작업 실행이 중지됩니다. 개별 Cloud Run 작업 또는 태스크는 실패할 수 있습니다. 이러한 실패를 처리하려면 태스크 재시도 및 체크포인트 지정을 사용할 수 있습니다. 자세한 내용은 작업 재시도 및 체크포인트 권장사항을 참고하세요. |
Cloud Storage |
리전, 이중 리전, 멀티 리전의 세 가지 위치 유형 중 하나로 Cloud Storage 버킷을 만들 수 있습니다. 리전 버킷의 데이터의 경우 Cloud Storage는 리전 내 여러 영역에 데이터를 동기식으로 복제합니다. 더 높은 가용성을 위해서는 Cloud Storage가 리전 간에 데이터를 동기식으로 복제하는 이중 리전 또는 멀티 리전 버킷을 사용하면 됩니다. 선택한 옵션이 규정 준수 요구사항을 충족하는지 확인하세요. |
AI 및 ML 워크로드와 관련된 안정성 원칙 및 권장사항은 Well-Architected Framework의 AI 및 ML 관점: 안정성을 참조하세요.
비용 최적화
이 섹션에서는 이 참조 아키텍처를 사용하여 빌드하는 Google Cloud 토폴로지의 설정 및 운영 비용을 최적화하는 방법을 안내합니다.
제품 |
설계 고려사항 및 권장사항 |
---|---|
Vertex AI |
에이전트가 호출하는 기본 AI 모델은 해당 에이전트 사용 비용에 직접적인 영향을 미칠 수 있습니다. 가격은 각 요청의 입력 및 출력 토큰 수를 기준으로 계산됩니다. 자세한 내용은 Vertex AI의 생성형 AI 할당량 및 시스템 한도 및 Google Cloud가격 계산기를 참고하세요. 비용을 절감하기 위해 토큰 수를 최소화하는 방법을 알아보려면 프롬프트 및 출력 길이 최적화를 참고하세요. |
Cloud Run Functions |
Cloud Run 작업을 만들 때 컨테이너 인스턴스에 할당할 메모리 및 CPU 양을 지정합니다. 비용을 관리하려면 기본 CPU 및 메모리 할당으로 시작하세요. 성능을 향상시키려면 CPU 한도 및 메모리 한도를 구성하여 할당을 늘릴 수 있습니다. Cloud Run 작업의 CPU 및 메모리 요구사항을 예측할 수 있으면 약정 사용 할인을 통해 비용을 절약할 수 있습니다. 자세한 내용은 Cloud Run 약정 사용 할인을 참고하세요. |
Cloud Storage |
데이터 수집 하위 시스템에 데이터를 로드하는 데 사용하는 Cloud Storage 버킷의 경우 워크로드의 데이터 보관 및 액세스 빈도 요구사항에 따라 적절한 스토리지 클래스를 선택합니다. 예를 들어 표준 스토리지 클래스를 선택하고 객체 수명 주기 관리를 사용하여 스토리지 비용을 관리할 수 있습니다. 객체 수명 주기 관리는 설정한 조건에 따라 객체를 더 저렴한 스토리지 클래스로 자동으로 다운그레이드하거나 객체를 삭제합니다. |
AI 및 ML 워크로드와 관련된 비용 최적화 원칙 및 권장사항은 Well-Architected Framework의 AI 및 ML 관점: 비용 최적화를 참조하세요.
성능 최적화
이 섹션에서는 Google Cloud 에서 워크로드의 성능 요구사항을 충족하는 토폴로지를 설계하기 위한 설계 고려사항과 권장사항을 설명합니다.
제품 |
설계 고려사항 및 권장사항 |
---|---|
Google Agentspace |
제공 중 지연 시간을 줄이려면 에이전트가 전체 출력을 생성하기 전에 모델 응답을 전송하여 응답을 스트리밍하세요. 이렇게 하면 출력을 실시간으로 처리할 수 있으며 개발자는 사용자 인터페이스를 즉시 업데이트하고 다른 동시 태스크를 수행할 수 있습니다. 스트리밍은 인지된 반응성을 향상시키고 더욱 상호적인 사용자 경험을 만듭니다. 자세한 내용은 답변 스트리밍을 참고하세요. |
Cloud Run |
성능 요구사항에 따라 Cloud Run 인스턴스의 메모리 및 CPU 할당을 조정합니다. 자세한 내용은 작업의 CPU 한도 구성 및 서비스의 메모리 한도 구성을 참고하세요. |
Cloud Storage |
대용량 파일을 업로드하려면 병렬 복합 업로드라는 방법을 사용할 수 있습니다. 이 전략을 사용하면 큰 파일이 청크로 분할됩니다. 청크를 Cloud Storage에 병렬로 업로드하면 Cloud Storage에서 Google Cloud에 데이터를 재조립합니다. 네트워크 대역폭과 디스크 속도가 충분한 경우 병렬 복합 업로드가 일반 업로드 작업보다 빠를 수 있습니다. 그러나 이 전략은 일부 제한사항과 비용 영향이 있습니다. 자세한 내용은 동시 복합 업로드를 참고하세요. |
AI 및 ML 워크로드와 관련된 성능 최적화 원칙 및 권장사항은 Well-Architected Framework의 AI 및 ML 관점: 성능 최적화를 참조하세요.
배포
이 참조 아키텍처를 배포하려면 GitHub에서 제공되는 Terraform 예시를 사용하세요. 자세한 내용은 Google Agentspace 및 Vertex AI를 사용하는 생성형 AI 애플리케이션을 위한 RAG 인프라를 참고하세요.
다음 단계
- Google Agentspace에서 RAG를 위해 문서를 청크 처리하는 방법을 알아보세요.
- Cloud Run에서 AI 앱 및 에이전트를 호스팅하는 방법을 알아봅니다.
- 책임감 있는 AI 권장사항 및 Vertex AI 안전 필터 알아보기
- 대규모 언어 모델 (LLM) 권장사항을 알아보세요.
- Google Cloud에서 AI 및 ML 워크로드와 관련된 아키텍처 원칙 및 권장사항에 대한 개요는 Well-Architected Framework의 AI 및 ML 관점을 참조하세요.
- 그 밖의 참조 아키텍처, 다이어그램, 튜토리얼, 권장사항을 알아보려면 Cloud 아키텍처 센터를 확인하세요.
참여자
저자: 사만다 헤 | 테크니컬 라이터
기타 참여자:
- Deepak Michael | 네트워킹 전문 고객 엔지니어
- 저자: 쿠마르 다나고팔 | 크로스 프로덕트 솔루션 개발자
- 마크 슐라겐하우프 | 네트워킹 테크니컬 라이터
- 빅터 모레노 | Cloud Networking 제품 관리자
- 예히아 엘샤터 | Google Cloud 생성형 AI 부문 현장 솔루션 설계자
- 파르트 마하잔 | Google Cloud 네트워크 전문가