Cloud Run에서의 AI/ML 조정 문서
Cloud Run은 AI/ML 워크로드를 포함한 컨테이너화된 애플리케이션을 Google의 확장 가능한 인프라에서 직접 실행할 수 있는 완전 관리형 플랫폼입니다. 이 플랫폼은 인프라를 대신 관리하므로, Cloud Run 리소스를 운영, 구성, 확장하는 데 시간을 들이지 않고 코드 작성에 집중할 수 있습니다. Cloud Run의 기능은 다음과 같은 이점을 제공합니다.
- 하드웨어 가속기: 대규모 추론을 위해 GPU에 액세스하고 관리할 수 있습니다.
- 프레임워크 지원: Hugging Face, TGI, vLLM 등 이미 익숙하고 신뢰할 수 있는 모델 서빙 프레임워크와 통합할 수 있습니다.
- 관리형 플랫폼: 유연성을 유지하면서 AI/ML 전체 수명 주기를 자동화, 확장, 보안 강화할 수 있는 관리형 플랫폼의 모든 이점을 제공합니다.
튜토리얼과 권장사항을 통해 Cloud Run이 AI/ML 워크로드를 어떻게 최적화할 수 있는지 알아보세요.
무료 크레딧 $300로 개념 증명 시작
- Gemini 2.0 Flash Thinking 이용
- AI API 및 BigQuery를 포함하여 인기 제품 월별 무료 사용량
- 자동 청구, 약정 없음
20개가 넘는 항상 무료 제품을 계속 살펴보기
AI API, VM, 데이터 웨어하우스 등 일반적인 사용 사례에 20개가 넘는 무료 제품을 사용할 수 있습니다.
문서 리소스
AI 솔루션 실행
- 개념
- 개념
- 사용 안내
- 사용 안내
- 사용 안내
- 튜토리얼
- 개념
- 개념
GPU를 사용한 추론
- 튜토리얼
- 사용 안내
- 튜토리얼
- 권장사항
- 튜토리얼
- 튜토리얼
- 권장사항
- 권장사항
문제 해결
- 개념
- 사용 안내
- 사용 안내
- 사용 안내
관련 리소스
NVIDIA GPU를 사용해 Cloud Run에서 AI 추론 애플리케이션 실행
실시간 AI 추론을 위해 Cloud Run에서 NVIDIA L4 GPU를 사용하세요. 여기에는 빠른 콜드 스타트와 대규모 언어 모델(LLM)을 위한 Scale-to-zero 이점이 포함됩니다.
Cloud Run: AI 애플리케이션을 프로덕션에 가장 빠르게 배포하는 방법
프로덕션에 즉시 사용 가능한 AI 애플리케이션에 Cloud Run을 사용하는 방법을 알아봅니다. 이 가이드에서는 프롬프트에 대한 A/B 테스트를 위한 트래픽 분할, RAG(검색 증강 생성) 패턴, 벡터 저장소 연결성과 같은 사용 사례를 설명합니다.
AI 배포 간소화: AI Studio 또는 MCP 호환 AI 에이전트에서 Cloud Run으로 앱 배포
Google AI Studio에서 Cloud Run 및 Cloud Run MCP(모델 컨텍스트 프로토콜) 서버로 한 번의 클릭으로 배포하여 IDE 또는 에이전트 SDK에서 AI 에이전트를 사용 설정하고 앱을 배포합니다.
GPU 성능으로 Cloud Run 강화: AI 워크로드를 위한 새로운 시대
비용 효율적인 LLM 서빙을 위해 NVIDIA L4 GPU를 Cloud Run과 통합하세요. 이 가이드에서는 Scale-to-zero 방법을 강조하고, Ollama와 같은 Gemma 2 모델 배포 단계를 제공합니다.
아직도 컨테이너에 AI 모델을 패키징하고 계신가요? 대신 Cloud Run에서 이렇게 하세요
Cloud Storage FUSE를 사용하여 대규모 모델 파일을 컨테이너 이미지에서 분리하세요. 이러한 분리를 통해 빌드 시간을 개선하고 업데이트를 단순화하며, 보다 확장 가능한 서빙 아키텍처를 만들 수 있습니다.
Cog를 사용해 머신러닝 모델을 Google Cloud에 패키징 및 배포
ML 서빙에 최적화된 Cog 프레임워크를 사용하여 컨테이너의 패키징 및 Cloud Run으로의 배포를 간소화하세요.
Cloud Run으로 ML 모델 배포 및 모니터링 - 가볍고, 확장 가능하며, 비용 효율적
Cloud Run을 사용해 가벼운 ML 추론을 수행하고, Cloud Logging, BigQuery와 같은 GCP 기본 서비스를 활용하여 비용 효율적인 모니터링 스택을 구축하세요.
Cloud Run을 사용해 웹사이트에 Google Cloud 생성형 AI 앱 배포
Vertex AI 생성형 AI API를 호출하는 간단한 Flask 애플리케이션을 확장 가능한 Cloud Run 서비스에 배포하세요.
AI Studio에서 Cloud Run으로 Gemma 직접 배포
AI Studio에서 Gemma Python 코드를 사용하고, Secret Manager를 활용해 API 키를 안전하게 처리하면서 이를 Cloud Run 인스턴스에 직접 배포하세요.