Gemma は、軽量の生成 AI(AI)オープンモデルのセットです。Gemma モデルは、アプリケーション内、ハードウェア、モバイル デバイス、ホスト型サービスで実行できます。また、これらのモデルをチューニング技術でカスタマイズし、デベロッパーやユーザーにとって重要なタスクを実行することもできます。Gemma モデルは Gemini モデルに基づいており、AI 開発コミュニティの拡大とさらなる発展を目的としています。
ファインチューニングを行うと、特定のタスクにおけるモデルのパフォーマンスを改善できます。Gemma モデル ファミリーのモデルはオープン ウェイトであるため、任意の AI フレームワークと Vertex AI SDK を使用してチューニングできます。Model Garden の Gemma モデルカードにあるリンクを使用して、ノートブックの例を開き Gemma モデルをファインチューニングできます。
Vertex 生成 AI で使用できる Gemma モデルは次のとおりです。Gemma モデルの詳細とテストについては、Model Garden のモデルカードをご覧ください。
モデル名 | ユースケース | Model Garden のモデルカード |
---|---|---|
Gemma | テキストの生成、要約、抽出に最適。 | Gemma モデルカードに移動する |
CodeGemma | コードの生成と補完に最適。 | CodeGemma モデルカードに移動 |
PaliGemma | 画像のキャプション付けや、視覚的な質問と回答のタスクに最適。 | PaliGemma モデルカードに移動 |
Gemma を使用できる場所は次のとおりです。
Vertex 生成 AI で Gemma を使用する
Vertex 生成 AI は、社内の MLOps の専門知識がなくても、ML プロジェクトを迅速に構築してスケーリングできるマネージド プラットフォームを提供します。Vertex 生成 AI は、Gemma モデルを提供するダウンストリーム アプリケーションとして使用できます。たとえば、Gemma の Keras 実装から重みを移植できます。このバージョンの Gemma を Vertex AI で提供し、予測を行うことができます。エンドツーエンドの MLOps 機能、付加価値のある ML 機能、開発の合理化に役立つサーバーレス エクスペリエンスが必要な場合は、Vertex 生成 AI を使用することをおすすめします。
Gemma の使用を開始するには、次のノートブックをご覧ください。
PEFT を使用して Gemma をファインチューニングし、Vertex から Vertex 生成 AI にデプロイする
PEFT を使用して Gemma をファインチューニングし、Huggingface から Vertex 生成 AI にデプロイする
Ray on Vertex AI を使用して Gemma をファインチューニングし、Vertex 生成 AI にデプロイする
他の Google Cloud プロダクトで Gemma を使用する
Gemma は、Google Kubernetes Engine や Dataflow などの他の Google Cloud プロダクトで使用できます。
GKE で Gemma を使用する
Google Kubernetes Engine(GKE)は、拡張性、セキュリティ、復元力、費用対効果に優れたマネージド Kubernetes 向けの Google Cloud ソリューションです。既存の Kubernetes への投資があり、組織内に独自の MLOps 専門知識が存在しているか、独自のセキュリティ、データ パイプライン、リソース管理要件に従って複雑な AI / ML ワークロードをきめ細かく制御する必要がある場合は、このオプションをおすすめします。詳細については、GKE ドキュメントの次のチュートリアルをご覧ください。
- vLLM で Gemma を提供する
- TGI で Gemma を提供する
- Triton と TensorRT-LLM で Gemma を提供する
- JetStream で Gemma を提供する
- Saxml で Gemma を提供する
Dataflow で Gemma を使用する
Dataflow で Gemma モデルを使用して感情分析を行うことができます。Dataflow を使用して、Gemma モデルを使用する推論パイプラインを実行します。詳細については、Gemma オープンモデルを使用して推論パイプラインを実行するをご覧ください。
Colab で Gemma を使用する
Colaboratory で Gemma を使用して Gemma ソリューションを作成できます。Colab では、PyTorch や JAX などのフレームワーク オプションとともに Gemma を使用できます。詳しくは、次をご覧ください。
- Keras を使用した Gemma を使ってみる
- PyTorch を使用した Gemma を使ってみる
- Keras を使用した Gemma の基本的なチューニング。
- Keras を使用した Gemma による分散チューニング。
Gemma モデルのサイズと機能
Gemma モデルには複数のサイズがあり、利用可能なコンピューティング リソース、必要な機能、実行場所に基づいて生成 AI ソリューションを構築できます。各モデルには、チューニング済みバージョンとまだチューニングされていないバージョンがあります。
事前トレーニング済み - このバージョンのモデルは、Gemma コアデータのトレーニング セット以外の特定のタスクや指示ではトレーニングされていません。チューニングを行わずにこのモデルを使用することはおすすめしません。
指示のチューニング済み - このバージョンのモデルは、基本的な chat bot と同様に会話に参加できるように、人間の言語のやり取りでトレーニングされています。
ミックス ファインチューニング済み - このバージョンのモデルは、学術データセットの組み合わせでファインチューニングされており、自然言語のプロンプトを受け付けます。
Gemma 2B と Gemma 7B のどちらかを選択する必要がある場合は、Gemma 2B を検討してください。Gemma 2B はパラメータ サイズが小さく、Gemma 7B よりもリソース要件が少なくなります。また、デプロイの柔軟性が高くなります。
モデル名 | パラメータ サイズ | 入力 | 出力 | チューニング済みバージョン | 目的のプラットフォーム |
---|---|---|---|---|---|
Gemma 2B | 22 億 | テキスト | テキスト |
|
モバイル デバイスとノートパソコン |
Gemma 7B | 70 億 | テキスト | テキスト |
|
デスクトップ コンピュータと小規模サーバー |
CodeGemma 2B | 20 億 | テキスト | テキスト |
|
デスクトップ コンピュータと小規模サーバー |
CodeGemma 7B | 70 億 | テキスト | テキスト |
|
デスクトップ コンピュータと小規模サーバー |
PaliGemma 3B | 30 億 | テキスト | テキスト |
|
デスクトップ コンピュータと小規模サーバー |
Gemma は、Google の専用 v5e TPU ハードウェアと NVIDIA の L4(G2 標準)、A100(A2 標準)、H100(A3 標準)GPU ハードウェアを使用してテストされています。