콘텐츠로 이동하기
애플리케이션-개발

NVIDIA GPU가 지원되는 Cloud Run에서 AI 추론 애플리케이션 실행

2025년 3월 17일
Sagar Randive

Product Manager, Google Cloud Serverless

Wenlei (Frank) He

Senior Staff Software Engineer, Google Cloud Serverless

영업 대표 연락하기

귀하의 클라우드에 대한 이슈를 전문 영업 대표를 통해 논의해보세요.

연락하기

* 본 아티클의 원문은 2024년 8월 22일 Google Cloud 블로그(영문)에 게재되었습니다. 

Cloud Run 개발자 사이에서 주목받는 이유는 단순성, 빠른 자동 확장, Scale-to-zero 기능, 종량제 가격 책정 때문입니다. 이와 똑같은 이점이 개방형 생성형 AI 모델을 서빙하는 실시간 추론 앱에 적용됩니다. 오늘 NVIDIA L4 GPU 대한 지원을 프리뷰로 Cloud Run 추가한 이유가 바로 여기에 있습니다.

덕분에 Cloud Run 개발자는 다음과 같은 여러 새로운 사용 사례를 실현할 있습니다.

  • Google 개방형 Gemma(2B/7B) 모델이나 Meta Llama 3(8B) 등의 경량 개방형 모델로 실시간 추론을 수행하여 커스텀 채팅 봇이나 즉석 문서 요약을 빌드하고 급증하는 사용자 트래픽을 처리하도록 확장합니다

  • 회사 브랜드에 맞는 이미지 생성과 같이 파인 튜닝된 커스텀 생성형 AI 모델을 서빙하고 사용하지 않을 때는 축소하여 비용을 최적화합니다.

  • 주문형 이미지 인식, 동영상 트랜스코딩 스트리밍, 3D 렌더링 컴퓨팅 집약적인 Cloud Run 서비스의 속도를 높입니다.

완전 관리형 플랫폼인 Cloud Run 사용하면 Google 확장 가능한 인프라에서 직접 코드를 실행하여 컨테이너의 유연성과 서버리스의 단순성을 결합해 생산성을 높일 있습니다. Cloud Run 사용하면 기본 인프라를 관리할 필요 없이 프런트엔드 백엔드 서비스를 실행하고, 작업을 일괄 처리하고, 웹사이트 애플리케이션을 배포하고, 처리 워크로드를 처리할 있습니다.

한편 AI 추론을 수행하는 많은 워크로드, 특히 실시간 처리가 필요한 애플리케이션에서 반응형 사용자 경험을 제공하기 위해서는 GPU 가속이 필요합니다. NVIDIA GPU 지원되면서 이제 원하는 LLM 사용하여 만에 주문형 온라인 AI 추론을 수행할 있습니다. 24GB vRAM 사용하면 Llama 3.1(80 ), Mistral(70 ), Gemma 2(90 ) 최대 90 개의 파라미터가 포함된 모델에서 빠른 토큰 속도를 기대할 있습니다. 앱을 사용하지 않을 때는 서비스가 0으로 자동 축소되어 요금이 청구되지 않습니다.

“NVIDIA L4 Tensor GPU NVIDIA NIM 지원이 추가된 Cloud Run 사용자에게 빠르게 확장되는 실시간 AI 추론 플랫폼을 제공하여 고객이 인프라 관리 오버헤드를 최소화하면서 AI 프로젝트를 앞당기고 솔루션을 빨리 출시할 있도록 지원합니다.” - Anne Hecht, NVIDIA 제품 마케팅 부문 선임 이사

Cloud Run NVIDIA GPU 조합에 대한 빠른 고객들의 기대

“Cloud Run GPU 지원은 실시간 추론 애플리케이션에 획기적인 변화를 일으켰습니다. 특히 짧은 콜드 스타트 지연 시간이 인상적입니다. 덕분에 모델에서 거의 즉시 예측을 제공할 있는데 이는 시간에 민감한 고객 경험에 매우 중요합니다. 또한 Cloud Run GPU 다양한 부하에서도 일관되게 서빙 지연 시간을 최소한으로 유지하여 생성형 AI 애플리케이션이 항상 반응성과 신뢰성을 유지하고 비활성화 기간 동안에는 쉽게 0으로 축소할 있습니다. 전반적으로 Cloud Run GPU 덕분에 빠르고 정확하고 효율적인 결과를 최종 사용자에게 제공하는 능력이 크게 향상되었습니다.” - Thomas MENARD, L’Oreal 글로벌 뷰티 기술 부문 AI 책임자

“Cloud Run GPU Google Cloud에서 GPU 컴퓨팅을 사용하는 가장 좋은 확실한 방법입니다. 오픈소스 표준(Knative) 사용하여 높은 수준의 제어 맞춤 설정을 제공할 뿐만 아니라 바로 사용할 있는 뛰어난 모니터링 가능성 도구와 Scale-to-zero 기능이 있는 완전 관리형 인프라를 지원한다는 점이 마음에 듭니다. Knative 기본 요소를 사용해 GKE 쉽게 마이그레이션할 있기 때문에 높은 복잡성과 유지보수를 감내하는 대신 많은 제어를 누릴 있는 옵션이 항상 존재합니다. 자사 사용 사례의 GPU 할당과 시작 시간도 경쟁업체 서비스에 비해 빨랐습니다.” - Alex Bielski, Chaptr 혁신 부문 이사

Cloud Run에서 사용하는 NVIDIA GPU

오늘부터 Cloud Run 인스턴스당 1개의 NVIDIA L4 GPU 연결이 지원됩니다. GPU 사전에 예약할 필요는 없습니다. 이제 us-central1(아이오와)에서 Cloud Run GPU 사용할 있으며 연말 전에 europe-west4(네덜란드) asia-southeast1(싱가포르)에도 지원할 예정입니다

NVIDIA GPU 지원되는 Cloud Run 서비스를 배포하려면 명령줄에 --gpu=1 플래그를 추가하여 GPU 수를 지정하고 --gpu-type=nvidia-l4 플래그를 추가하여 GPU 유형을 지정하세요. Google Cloud 콘솔에서 배포할 수도 있습니다.

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/GPU_blog_gif_2.gif

최근에 발표한 Cloud Run Functions 사용하면 GPU 함수에 연결하여 이벤트 기반 AI 추론을 간단하게 수행할 있습니다.

"GPU 지원을 추가해 새롭게 출시된 Cloud Run Functions에서는 Python 개발자가 인프라, GPU 드라이버, 컨테이너에 대한 걱정 없이 Hugging Face 모델 사용할 있습니다. Cloud Run Scale-to-zero 빠른 시작 기능은 특히 줄의 서버리스 코드만으로 HuggingFace 모델을 사용해 AI 시작하기를 원하는 개발자에게 적합합니다.” - Julien Chaumond, Hugging Face CTO

성능

NVIDIA GPU 지원하는 Cloud Run에서는 간단한 조작으로 강력한 성능을 누릴 있습니다. 인프라 지연 시간을 최소한으로 유지하여 모델 서빙 최고의 성능을 보장합니다

드라이버가 사전 설치된 L4 GPU 연결된 Cloud Run 인스턴스는  5 만에 시작되며 이때 컨테이너에서 실행되는 프로세스가 GPU 사용하기 시작합니다. 이후 프레임워크와 모델이 로드되고 초기화되는 초가 소요됩니다. 아래 표에는 Ollama 프레임워크를 사용하는 Gemma 2b, Gemma2 9b, Llama2 7b/13b, Llama3.1 8b 모델의 콜드 스타트 시간(11~35) 나와 있습니다. 이는 인스턴스를 0에서 시작하여 GPU 모델을 로드하고 LLM 단어를 반환하는 걸리는 시간을 측정한 값입니다.

모델

모델 크기 

콜드 스타트 시간

gemma:2b

1.7GB

11~17

gemma2:9b

5.1GB

25~30

llama2:7b

3.8GB

14~21

llama2:13b

7.4GB

23~35

llama3.1:8b

4.7GB

15~21

콜드 스타트 시간: Cloud Run 인스턴스의 서비스 URL을 처음 호출하여 0에서 1이 되고 응답의 첫 단어를 제공하는 데 걸리는 시간입니다.

모델: 위에 나온 각 모델의 4비트 양자화된 버전을 사용했습니다. 이러한 모델은 Ollama 프레임워크를 사용해 배포했습니다. 

참고로 통제된 실험 환경에서 관찰한 수치이며 실제 성능 수치는 다양한 요인에 따라 달라질 수 있습니다. 

Ollama를 사용한 샘플 앱 배포

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_lL36B9K.max-300x300.jpg

아래에서 NVIDIA GPU 지원되는 Cloud Run 통해 Ollama 기반의 Google Gemma2 9b 모델을 배포하는 방법을 확인할 있습니다Gemma Gemini 모델을 만드는 사용되는 것과 동일한 연구와 기술로 빌드된 최첨단 경량 개방형 모델군입니다Ollama 대규모 언어 모델을 관리할 있는 간단한 API 제공하는 프레임워크입니다

먼저 Ollama 사용하는 컨테이너 이미지와 Dockerfile 사용하는 모델을 만듭니다.

로드 중...

이제 모든 작업이 완료되었습니다

로드 중...

배포  Ollama API 사용해 Gemma 2와의 채팅을 시작하면 됩니다!

최신 GPU 지원 덕분에 Cloud Run에서 Ollama 사용해 대규모 언어 모델을 간단하게 배포할 있게 되었습니다. 명령어 개만으로 Ollama 앱의 원활한 통합 Cloud Run 서버리스 인프라를 활용하여 손쉽게 LLM 배포하고 관리할 있습니다. Cloud Run 빠른 콜드 스타트와 신속한 확장으로 애플리케이션의 안정적인 확장이 가능합니다. 인프라나 머신러닝에 관해 전문 지식이 없어도 됩니다. 편하게 애플리케이션에 집중하세요. 나머지는 도구에 맡기면 됩니다.” - Jeffrey Morgan, Ollama 설립자

또한 Google Cloud Marketplace에서 제공되는 NVIDIA AI Enterprise 소프트웨어 제품군 일부인 NVIDIA NIM 추론 마이크로서비스를 활용할 있습니다. 이에 따라 가속화된 고성능 AI 모델 추론이 안전하고 안정적으로 배포되므로 AI 추론 배포가 간소화되고 Cloud Run에서 NVIDIA L4 GPU 성능이 극대화됩니다. NVIDIA 블로그에서 시작하는 방법을 확인하세요.

지금 시작하기

Cloud Run 사용하면 애플리케이션을 매우 쉽게 호스팅할 있습니다. 이제 GPU 지원이 추가되어 AI 추론 애플리케이션에서도 최고의 서버리스, 단순성, 확장성을 누릴 있습니다. NVIDIA GPU 지원되는 Cloud Run 사용하려면 g.co/cloudrun/gpu에서 프리뷰 프로그램을 신청하고 환영 이메일을 기다리세요.

GPU 지원되는 Cloud Run 대해 자세히 알아보려면 NVIDIA Ollama 함께한 2024 8 21  라이브 스트림 확인하세요. Cloud Run 새로운 기능을 다루고 다양한 시나리오에서 Cloud Run 사용하는 방법을 시연합니다.

게시 위치