Gemma는 가벼운 생성형 인공지능(AI) 개방형 모델의 집합입니다. Gemma 모델은 애플리케이션과 하드웨어, 휴대기기 또는 호스팅된 서비스에서 실행할 수 있습니다. 또한 개발자와 사용자에게 중요한 태스크를 수행할 때 뛰어난 성능을 발휘하도록 조정 기법을 사용하여 이러한 모델을 맞춤설정할 수 있습니다. Gemma 모델은 Gemini 모델을 기반으로 하며 AI 개발 커뮤니티가 이를 확장하고 발전할 수 있도록 고안되었습니다.
미세 조정은 특정 태스크에서 모델의 성능을 향상시키는 데 도움이 될 수 있습니다. Gemma 모델 계열의 모델은 개방형 가중치이므로 원하는 AI 프레임워크와 Vertex AI SDK를 사용하여 모든 모델을 조정할 수 있습니다. 노트북 예시를 열어 Model Garden의 Gemma 모델 카드에서 제공되는 링크를 사용하여 Gemma 모델을 미세 조정할 수 있습니다.
Vertex AI와 함께 사용할 수 있는 Gemma 모델은 다음과 같습니다. Gemma 모델에 대해 자세히 알아보고 테스트하려면 Model Garden 모델 카드를 참조하세요.
모델 이름 | 사용 사례 | Model Garden 모델 카드 |
---|---|---|
Gemma | 텍스트 생성, 요약, 추출에 적합합니다. | Gemma 모델 카드로 이동 |
CodeGemma | 코드 생성 및 완성에 적합합니다. | CodeGemma 모델 카드로 이동 |
다음은 Gemma를 사용할 수 있는 몇 가지 옵션입니다.
Vertex AI에서 Gemma 사용
Vertex AI는 사내 MLOps 전문 지식 없이도 머신러닝 프로젝트를 빠르게 빌드 및 확장할 수 있는 관리형 플랫폼을 제공합니다. Vertex AI를 Gemma 모델을 제공하는 다운스트림 애플리케이션으로 사용할 수 있습니다. 예를 들어 Gemma의 Keras 구현에서 가중치를 포팅할 수 있습니다. 그런 다음 Vertex AI로 해당 버전의 Gemma를 서빙하여 예측을 얻을 수 있습니다. 엔드 투 엔드 MLOps 역량, 고급형 ML 기능, 간소화된 개발을 위한 서버리스 환경이 필요한 경우 Vertex AI를 사용하는 것이 좋습니다.
Gemma를 시작하려면 다음 노트북을 참조하세요.
다른 Google Cloud 제품에서 Gemma 사용
Google Kubernetes Engine, Dataflow 등 다른 Google Cloud 제품과 함께 Gemma를 사용할 수 있습니다.
GKE에서 Gemma 사용
Google Kubernetes Engine(GKE)은 확장성, 보안, 복원력, 비용 효율성을 제공하는 관리형 Kubernetes용 Google Cloud 솔루션입니다. Kubernetes를 이미 도입했거나 조직 내부에 MLOps 전문가가 있거나 특별한 보안, 데이터 파이프라인, 리소스 관리 요구사항에 따라 복잡한 AI/ML 워크로드를 세밀하게 제어해야 하는 경우 이 옵션을 사용하는 것이 좋습니다. 자세한 내용은 GKE 문서의 다음 튜토리얼을 참조하세요.
- vLLM으로 Gemma 서빙
- TGI로 Gemma 서빙
- Triton 및 TensorRT-LLM으로 Gemma 서빙
- JetStream을 사용하여 Gemma 제공
- Saxml로 Gemma 서빙
Dataflow에서 Gemma 사용
감정 분석을 위해 Dataflow에서 Gemma 모델을 사용할 수 있습니다. Dataflow를 사용하여 Gemma 모델을 사용하는 추론 파이프라인을 실행합니다. 자세한 내용은 Gemma 개방형 모델로 추론 파이프라인 실행을 참조하세요.
Colab에서 Gemma 사용
Colaboratory와 함께 Gemma를 사용하여 Gemma 솔루션을 만들 수 있습니다. Colab에서 Gemma를 PyTorch, JAX 등의 프레임워크 옵션과 함께 사용할 수 있습니다. 자세한 내용은 다음을 참조하세요.
- Keras를 사용하여 Gemma 시작하기
- PyTorch를 사용하여 Gemma 시작하기
- Keras를 사용하여 Gemma로 기본 미세 조정
- Keras를 사용하여 Gemma로 분산 조정
Gemma 모델 크기 및 기능
Gemma 모델은 사용 가능한 컴퓨팅 리소스, 필요한 기능, 실행할 위치에 따라 생성형 AI 솔루션을 빌드할 수 있도록 여러 크기로 제공됩니다. 조정된 버전과 조정되지 않은 버전에서 각 모델을 사용할 수 있습니다.
선행 학습 - 이 모델 버전은 Gemma 핵심 데이터 학습 세트를 제외하고 특정 태스크 또는 명령에 대해 학습되어 있지 않습니다. 이 모델을 사용하려면 일부 조정을 수행하는 것이 좋습니다.
명령 조정 - 이 모델 버전은 간단한 채팅 봇과 유사하게 대화에 참여할 수 있도록 인간 언어 상호작용에 맞춰 학습되어 있습니다.
Gemma 2B와 Gemma 7B 중에서 결정해야 하는 경우 Gemma 2B를 사용하는 것이 좋습니다. Gemma 2B의 매개변수 크기가 작을수록 Gemma 7B보다 리소스 요구사항이 적고 배포 유연성이 높아집니다.
모델 이름 | 매개변수 크기 | 입력 | 출력 | 조정된 버전 | 의도된 플랫폼 |
---|---|---|---|---|---|
Gemma 2B | 22억 | 텍스트 | 텍스트 |
|
휴대기기 및 노트북 |
Gemma 7B | 70억 | 텍스트 | 텍스트 |
|
데스크톱 컴퓨터 및 소형 서버 |
CodeGemma 2B | 20억 | 텍스트 | 텍스트 |
|
데스크톱 컴퓨터 및 소형 서버 |
CodeGemma 7B | 70억 | 텍스트 | 텍스트 |
|
데스크톱 컴퓨터 및 소형 서버 |
Gemma는 Google의 특화된 v5e TPU 하드웨어와 NVIDIA의 L4(G2 표준), A100(A2 표준), H100(A3 표준) GPU 하드웨어를 사용하여 테스트되었습니다.