AI 및 머신러닝

Google Cloud에서 Gemma를 만나보세요

2024년 2월 21일

https://storage.googleapis.com/gweb-cloudblog-publish/images/Blog_Gemma_1b.max-2500x2500.jpg

Burak Gokturk

VP & GM, Cloud AI & Industry Solutions, Google Cloud

오늘 구글은 제미나이(Gemini) 모델을 구축하는 데 활용된 연구 기술을 바탕으로 개발한 초경량의 최첨단 오픈 모델 제품군 ‘젬마(Gemma)’를 공개했습니다. 이제 구글 클라우드 고객은 버텍스 AI(Vertex AI)에서 젬마 모델을 커스터마이즈하고 구축하며, 구글 쿠버네티스 엔진(Google Kubernetes Engine, GKE)에서 실행할 수 있게 되었습니다. 오늘 공개한 젬마 모델과 플랫폼 기능 업데이트를 통해 개발자가 구글 클라우드에서 AI를 더욱 개방적이고 쉽게 이용할 수 있기를 바랍니다.

이제 구글 클라우드에서 젬마를 만나보세요

젬마 모델은 뛰어난 성능을 자랑하는 구글의 제미나이 모델과 동일한 기술 및 인프라 구성을 갖추고 있습니다. 이 덕분에 젬마는 다른 오픈 모델과 비교했을 때 동일한 사이즈 기준 최고의 성능을 자랑합니다. 젬마는 젬마 2B(Gemma 2B)와 젬마 7B(Gemma 7B)로 구성된 두 가지 크기의 모델로 출시되며, 각 모델은 연구개발이 가능하도록 사전 학습 및 지시 조정(instruction-tuned)된 변수와 함께 제공됩니다.

젬마는 오늘날 클라우드 개발자들이 즐겨 사용하는 도구인 콜랩(Colab)과 캐글(Kaggle) 노트북은 물론 잭스(JAX), 파이토치(PyTorch), 케라스 3.0(Keras 3.0), 허깅페이스 트랜스포머(Hugging Face Transformers)와 같은 프레임워크를 지원하며 노트북, 워크스테이션 및 구글 클라우드에서 실행할 수 있습니다. 개발자는 이제 버텍스 AI에서 이 새로운 오픈 모델을 활용해 모델을 구축하고, 커스터마이즈하며, 구글 쿠버네티스 엔진에서 실행할 수 있습니다. 또한 구글 클라우드는 업계 최고 수준의 성능을 제공하기 위해 엔비디아(NVIDIA)와 손잡고 젬마를 엔비디아 GPU에 최적화했습니다.

버텍스 AI에서 젬마의 강력한 기능 활용하기

최근 발표된 제미나이 확장 모델(제미나이 1.0 프로, 제미나이 1.0 울트라, 제미나이 1.5 프로)에 이어 젬마가 새롭게 합류하면서, 구글 클라우드는 버텍스 AI의 모델 가든(Model Garden)에서 130개 이상의 모델을 제공하게 됐습니다.

개발자는 버텍스 AI에서 젬마 모델을 사용하면서 모델을 간단하고 직관적으로 조정, 관리, 모니터링할 수 있는 엔드투엔드(end-to-end) 머신러닝(ML) 플랫폼을 활용할 수 있습니다. 빌더는 버텍스 AI를 통해 운영 부담을 줄이고, 사용 사례에 최적화된 맞춤형 젬마 버전을 만드는 데 전념할 수 있습니다. 개발자는 버텍스 AI에서 젬마 모델을 사용해 다음과 같은 작업을 수행할 수 있습니다:

텍스트 생성, 요약, 질의응답과 같은 간단한 작업을 위한 생성형 AI 앱을 구축할 수 있습니다.
탐색 및 실험을 위한 맞춤형 경량화 모델을 사용해 연구 개발을 지원합니다.
텍스트 스트리밍(streaming text)과 같이 저지연이 요구되는 실시간 생성형 AI 사용 사례를 지원합니다.

버텍스 AI는 개발자가 자체적으로 조정한 모델을 확장 가능한 엔드포인트로 쉽게 전환해 모든 규모의 AI 애플리케이션을 지원할 수 있도록 지원합니다.

구글 쿠버네티스 엔진에서 젬마를 사용해 프로토타입에서 프로덕션으로 확장하기

구글 쿠버네티스 엔진은 간단한 프로젝트의 프로토타입부터 엔터프라이즈 규모의 앱(app) 출시까지, 맞춤형 앱을 구축하는 도구를 제공합니다. 오늘부터 개발자는 구글 쿠버네티스 엔진에 직접 젬마를 배포해 프로토타입을 구축하거나 모델 기능을 테스트하기 위한 자체 생성형 AI 앱을 만들 수 있습니다.

익숙한 툴체인을 사용해 애플리케이션과 함께 미세 조정된 맞춤형 모델을 포터블 컨테이너에 배포할 수 있습니다.
노드를 제공하거나 유지 관리할 필요 없이 모델 제공 및 인프라 구성을 커스터마이즈할 수 있습니다.
가장 까다로운 학습 및 추론 시나리오에 맞게 확장할 수 있는 기능으로 AI 인프라를 빠르게 통합할 수 있습니다.

구글 쿠버네티스 엔진은 효율적인 리소스 관리, 일관된 운영 환경 및 자동 확장 기능을 제공합니다. 또한 GPU와 TPU를 포함한 구글 클라우드 AI 가속기의 간편한 오케스트레이션으로 이러한 환경을 개선해, 생성형 AI 모델을 구축할 때 더 빠르게 학습하고 추론할 수 있도록 지원합니다.