애플리케이션-개발

NVIDIA GPU가 지원되는 Cloud Run에서 AI 추론 애플리케이션 실행

2025년 3월 17일

Sagar Randive

Product Manager, Google Cloud Serverless

Wenlei (Frank) He

Senior Staff Software Engineer, Google Cloud Serverless

영업 대표 연락하기

귀하의 클라우드에 대한 이슈를 전문 영업 대표를 통해 논의해보세요.

연락하기

* 본 아티클의 원문은 2024년 8월 22일 Google Cloud 블로그(영문)에 게재되었습니다.

Cloud Run이 개발자 사이에서 주목받는 이유는 단순성, 빠른 자동 확장, Scale-to-zero 기능, 종량제 가격 책정 때문입니다. 이와 똑같은 이점이 개방형 생성형 AI 모델을 서빙하는 실시간 추론 앱에 적용됩니다. 오늘 NVIDIA L4 GPU에 대한 지원을 프리뷰로 Cloud Run에 추가한 이유가 바로 여기에 있습니다.

덕분에 Cloud Run 개발자는 다음과 같은 여러 새로운 사용 사례를 실현할 수 있습니다.

Google의 개방형 Gemma(2B/7B) 모델이나 Meta의 Llama 3(8B) 등의 경량 개방형 모델로 실시간 추론을 수행하여 커스텀 채팅 봇이나 즉석 문서 요약을 빌드하고 급증하는 사용자 트래픽을 처리하도록 확장합니다.
회사 브랜드에 맞는 이미지 생성과 같이 파인 튜닝된 커스텀 생성형 AI 모델을 서빙하고 사용하지 않을 때는 축소하여 비용을 최적화합니다.
주문형 이미지 인식, 동영상 트랜스코딩 및 스트리밍, 3D 렌더링 등 컴퓨팅 집약적인 Cloud Run 서비스의 속도를 높입니다.

완전 관리형 플랫폼인 Cloud Run을 사용하면 Google의 확장 가능한 인프라에서 직접 코드를 실행하여 컨테이너의 유연성과 서버리스의 단순성을 결합해 생산성을 높일 수 있습니다. Cloud Run을 사용하면 기본 인프라를 관리할 필요 없이 프런트엔드 및 백엔드 서비스를 실행하고, 작업을 일괄 처리하고, 웹사이트 및 애플리케이션을 배포하고, 큐 처리 워크로드를 처리할 수 있습니다.

한편 AI 추론을 수행하는 많은 워크로드, 특히 실시간 처리가 필요한 애플리케이션에서 반응형 사용자 경험을 제공하기 위해서는 GPU 가속이 필요합니다. NVIDIA GPU가 지원되면서 이제 원하는 LLM을 사용하여 몇 초 만에 주문형 온라인 AI 추론을 수행할 수 있습니다. 24GB의 vRAM을 사용하면 Llama 3.1(80억 개), Mistral(70억 개), Gemma 2(90억 개) 등 최대 90억 개의 파라미터가 포함된 모델에서 빠른 토큰 속도를 기대할 수 있습니다. 앱을 사용하지 않을 때는 서비스가 0으로 자동 축소되어 요금이 청구되지 않습니다.

“NVIDIA L4 Tensor GPU와 NVIDIA NIM 지원이 추가된 Cloud Run은 사용자에게 빠르게 확장되는 실시간 AI 추론 플랫폼을 제공하여 고객이 인프라 관리 오버헤드를 최소화하면서 AI 프로젝트를 앞당기고 솔루션을 더 빨리 출시할 수 있도록 지원합니다.” - Anne Hecht, NVIDIA 제품 마케팅 부문 선임 이사

Cloud Run 및 NVIDIA GPU 조합에 대한 발 빠른 고객들의 기대

“Cloud Run의 GPU 지원은 실시간 추론 애플리케이션에 획기적인 변화를 일으켰습니다. 특히 짧은 콜드 스타트 지연 시간이 인상적입니다. 덕분에 모델에서 거의 즉시 예측을 제공할 수 있는데 이는 시간에 민감한 고객 경험에 매우 중요합니다. 또한 Cloud Run GPU는 다양한 부하에서도 일관되게 서빙 지연 시간을 최소한으로 유지하여 생성형 AI 애플리케이션이 항상 반응성과 신뢰성을 유지하고 비활성화 기간 동안에는 쉽게 0으로 축소할 수 있습니다. 전반적으로 Cloud Run GPU 덕분에 빠르고 정확하고 효율적인 결과를 최종 사용자에게 제공하는 능력이 크게 향상되었습니다.” - Thomas MENARD, L’Oreal 글로벌 뷰티 기술 부문 AI 책임자

“Cloud Run GPU는 Google Cloud에서 GPU 컴퓨팅을 사용하는 데 가장 좋은 확실한 방법입니다. 오픈소스 표준(Knative)을 사용하여 높은 수준의 제어 및 맞춤 설정을 제공할 뿐만 아니라 바로 사용할 수 있는 뛰어난 모니터링 가능성 도구와 Scale-to-zero 기능이 있는 완전 관리형 인프라를 지원한다는 점이 마음에 듭니다. Knative 기본 요소를 사용해 GKE로 쉽게 마이그레이션할 수 있기 때문에 높은 복잡성과 유지보수를 감내하는 대신 더 많은 제어를 누릴 수 있는 옵션이 항상 존재합니다. 자사 사용 사례의 GPU 할당과 시작 시간도 경쟁업체 서비스에 비해 더 빨랐습니다.” - Alex Bielski, Chaptr 혁신 부문 이사

Cloud Run에서 사용하는 NVIDIA GPU

오늘부터 Cloud Run 인스턴스당 1개의 NVIDIA L4 GPU 연결이 지원됩니다. GPU를 사전에 예약할 필요는 없습니다. 이제 us-central1(아이오와)에서 Cloud Run GPU를 사용할 수 있으며 연말 전에 europe-west4(네덜란드) 및 asia-southeast1(싱가포르)에도 지원할 예정입니다.

NVIDIA GPU가 지원되는 Cloud Run 서비스를 배포하려면 명령줄에 --gpu=1 플래그를 추가하여 GPU 수를 지정하고 --gpu-type=nvidia-l4 플래그를 추가하여 GPU 유형을 지정하세요. Google Cloud 콘솔에서 배포할 수도 있습니다.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/GPU_blog_gif_2.gif

최근에 발표한 Cloud Run Functions를 사용하면 GPU를 함수에 연결하여 이벤트 기반 AI 추론을 간단하게 수행할 수 있습니다.

"GPU 지원을 추가해 새롭게 출시된 Cloud Run Functions에서는 Python 개발자가 인프라, GPU 드라이버, 컨테이너에 대한 걱정 없이 Hugging Face 모델을 사용할 수 있습니다. Cloud Run의 Scale-to-zero 및 빠른 시작 기능은 특히 단 몇 줄의 서버리스 코드만으로 HuggingFace 모델을 사용해 AI를 시작하기를 원하는 개발자에게 적합합니다.” - Julien Chaumond, Hugging Face CTO

성능

NVIDIA GPU가 지원하는 Cloud Run에서는 간단한 조작으로 강력한 성능을 누릴 수 있습니다. 인프라 지연 시간을 최소한으로 유지하여 모델 서빙 시 최고의 성능을 보장합니다.

드라이버가 사전 설치된 L4 GPU가 연결된 Cloud Run 인스턴스는 약 5초 만에 시작되며 이때 컨테이너에서 실행되는 프로세스가 GPU를 사용하기 시작합니다. 이후 프레임워크와 모델이 로드되고 초기화되는 데 몇 초가 더 소요됩니다. 아래 표에는 Ollama 프레임워크를 사용하는 Gemma 2b, Gemma2 9b, Llama2 7b/13b, Llama3.1 8b 모델의 콜드 스타트 시간(11초~35초)이 나와 있습니다. 이는 인스턴스를 0에서 시작하여 GPU에 모델을 로드하고 LLM이 첫 단어를 반환하는 데 걸리는 시간을 측정한 값입니다.

모델	모델 크기	콜드 스타트 시간
gemma:2b	1.7GB	11~17초
gemma2:9b	5.1GB	25~30초
llama2:7b	3.8GB	14~21초
llama2:13b	7.4GB	23~35초
llama3.1:8b	4.7GB	15~21초

_{콜드 스타트 시간: Cloud Run 인스턴스의 서비스 URL을 처음 호출하여 0에서 1이 되고 응답의 첫 단어를 제공하는 데 걸리는 시간입니다.}

_{모델: 위에 나온 각 모델의 4비트 양자화된 버전을 사용했습니다. 이러한 모델은 Ollama 프레임워크를 사용해 배포했습니다.}

_{참고로 통제된 실험 환경에서 관찰한 수치이며 실제 성능 수치는 다양한 요인에 따라 달라질 수 있습니다.}

Ollama를 사용한 샘플 앱 배포

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_lL36B9K.max-300x300.jpg

아래에서 NVIDIA GPU가 지원되는 Cloud Run을 통해 Ollama 기반의 Google Gemma2 9b 모델을 배포하는 방법을 확인할 수 있습니다. Gemma는 Gemini 모델을 만드는 데 사용되는 것과 동일한 연구와 기술로 빌드된 최첨단 경량 개방형 모델군입니다. Ollama는 대규모 언어 모델을 관리할 수 있는 간단한 API를 제공하는 프레임워크입니다.

먼저 Ollama를 사용하는 컨테이너 이미지와 이 Dockerfile을 사용하는 모델을 만듭니다.

로드 중...

이제 모든 작업이 완료되었습니다.

로드 중...

배포 후 Ollama API를 사용해 Gemma 2와의 채팅을 시작하면 됩니다!

“최신 GPU 지원 덕분에 Cloud Run에서 Ollama를 사용해 대규모 언어 모델을 간단하게 배포할 수 있게 되었습니다. 명령어 몇 개만으로 Ollama와 앱의 원활한 통합 및 Cloud Run의 서버리스 인프라를 활용하여 손쉽게 LLM을 배포하고 관리할 수 있습니다. Cloud Run의 빠른 콜드 스타트와 신속한 확장으로 애플리케이션의 안정적인 확장이 가능합니다. 인프라나 머신러닝에 관해 전문 지식이 없어도 됩니다. 편하게 애플리케이션에 집중하세요. 나머지는 이 도구에 맡기면 됩니다.” - Jeffrey Morgan, Ollama 설립자

또한 Google Cloud Marketplace에서 제공되는 NVIDIA AI Enterprise 소프트웨어 제품군의 일부인 NVIDIA NIM 추론 마이크로서비스를 활용할 수 있습니다. 이에 따라 가속화된 고성능 AI 모델 추론이 안전하고 안정적으로 배포되므로 AI 추론 배포가 간소화되고 Cloud Run에서 NVIDIA L4 GPU의 성능이 극대화됩니다. 이 NVIDIA 블로그에서 시작하는 방법을 확인하세요.

지금 시작하기

Cloud Run을 사용하면 웹 애플리케이션을 매우 쉽게 호스팅할 수 있습니다. 이제 GPU 지원이 추가되어 AI 추론 애플리케이션에서도 최고의 서버리스, 단순성, 확장성을 누릴 수 있습니다. NVIDIA GPU가 지원되는 Cloud Run을 사용하려면 g.co/cloudrun/gpu에서 프리뷰 프로그램을 신청하고 환영 이메일을 기다리세요.