Gemma オープンモデルを使用する

Gemma は、軽量の生成 AI（AI）オープンモデルのセットです。Gemma モデルは、アプリケーション内、ハードウェア、モバイルデバイス、ホスト型サービスで実行できます。また、これらのモデルをチューニング技術でカスタマイズし、デベロッパーやユーザーにとって重要なタスクを実行することもできます。Gemma モデルは Gemini モデルに基づいており、AI 開発コミュニティの拡大とさらなる発展を目的としています。

ファインチューニングを行うと、特定のタスクにおけるモデルのパフォーマンスを改善できます。Gemma モデルファミリーのモデルはオープンウェイトであるため、任意の AI フレームワークと Vertex AI SDK を使用してチューニングできます。Model Garden の Gemma モデルカードにあるリンクを使用して、ノートブックの例を開き Gemma モデルをファインチューニングできます。

Vertex AI で使用できる Gemma モデルは次のとおりです。Gemma モデルの詳細とテストについては、Model Garden のモデルカードをご覧ください。

モデル名	ユースケース	Model Garden のモデルカード
Gemma 2	テキストの生成、要約、抽出に最適。	Gemma 2 モデルカードに移動する
Gemma	テキストの生成、要約、抽出に最適。	Gemma モデルカードに移動する
CodeGemma	コードの生成と補完に最適。	CodeGemma モデルカードに移動
PaliGemma	画像のキャプション付けや、視覚的な質問と回答のタスクに最適。	PaliGemma モデルカードに移動

Gemma を使用できる場所は次のとおりです。

Vertex AI で Gemma を使用する

Vertex AI は、社内の MLOps の専門知識がなくても、ML プロジェクトを迅速に構築してスケーリングできるマネージドプラットフォームを提供します。Vertex AI は、Gemma モデルを提供するダウンストリームアプリケーションとして使用できます。たとえば、Gemma の Keras 実装から重みを移植できます。このバージョンの Gemma を Vertex AI で提供し、予測を行うことができます。エンドツーエンドの MLOps 機能、付加価値のある ML 機能、開発の合理化に役立つサーバーレスエクスペリエンスが必要な場合は、Vertex AI を使用することをおすすめします。

Gemma の使用を開始するには、次のノートブックをご覧ください。

他の Google Cloud プロダクトで Gemma を使用する

Gemma は、Google Kubernetes Engine や Dataflow などの他の Google Cloud プロダクトで使用できます。

GKE で Gemma を使用する

Google Kubernetes Engine（GKE）は、拡張性、セキュリティ、復元力、費用対効果に優れたマネージド Kubernetes 向けの Google Cloud ソリューションです。既存の Kubernetes への投資があり、組織内に独自の MLOps 専門知識が存在しているか、独自のセキュリティ、データパイプライン、リソース管理要件に従って複雑な AI / ML ワークロードをきめ細かく制御する必要がある場合は、このオプションをおすすめします。詳細については、GKE ドキュメントの次のチュートリアルをご覧ください。

Dataflow で Gemma を使用する

Dataflow で Gemma モデルを使用して感情分析を行うことができます。Dataflow を使用して、Gemma モデルを使用する推論パイプラインを実行します。詳細については、Gemma オープンモデルを使用して推論パイプラインを実行するをご覧ください。

Colab で Gemma を使用する

Colaboratory で Gemma を使用して Gemma ソリューションを作成できます。Colab では、PyTorch や JAX などのフレームワークオプションとともに Gemma を使用できます。詳しくは、次をご覧ください。

Gemma モデルのサイズと機能

Gemma モデルには複数のサイズがあり、利用可能なコンピューティングリソース、必要な機能、実行場所に基づいて生成 AI ソリューションを構築できます。各モデルには、チューニング済みバージョンとまだチューニングされていないバージョンがあります。

事前トレーニング済み - このバージョンのモデルは、Gemma コアデータのトレーニングセット以外の特定のタスクや指示ではトレーニングされていません。チューニングを行わずにこのモデルを使用することはおすすめしません。
指示のチューニング済み - このバージョンのモデルは、基本的な chat bot と同様に会話に参加できるように、人間の言語のやり取りでトレーニングされています。
ミックスファインチューニング済み - このバージョンのモデルは、学術データセットの組み合わせでファインチューニングされており、自然言語のプロンプトを受け付けます。

パラメータサイズが小さいほど、リソース要件が少なく、デプロイの柔軟性が高くなります。

モデル名	パラメータサイズ	入力	出力	チューニング済みバージョン	目的のプラットフォーム
Gemma 2
Gemma 27B	270 億	テキスト	テキスト	トレーニング済み指示のチューニング済み	大規模なサーバーまたはサーバークラスタ
Gemma 9B	90 億人の	テキスト	テキスト	トレーニング済み指示のチューニング済み	ハイエンドデスクトップパソコンとサーバー
Gemma 2B	20 億	テキスト	テキスト	トレーニング済み指示のチューニング済み	モバイルデバイスとノートパソコン
Gemma
Gemma 7B	70 億	テキスト	テキスト	トレーニング済み指示のチューニング済み	デスクトップコンピュータと小規模サーバー
Gemma 2B	22 億	テキスト	テキスト	トレーニング済み指示のチューニング済み	モバイルデバイスとノートパソコン
CodeGemma
CodeGemma 7B	70 億	テキスト	テキスト	トレーニング済み指示のチューニング済み	デスクトップコンピュータと小規模サーバー
CodeGemma 2B	20 億	テキスト	テキスト	トレーニング済み	デスクトップコンピュータと小規模サーバー
PaliGemma
PaliGemma 3B	30 億	テキスト	テキスト	トレーニング済みミックスファインチューニング済み	デスクトップコンピュータと小規模サーバー

Gemma は、Google の専用 v5e TPU ハードウェアと NVIDIA の L4（G2 Standard）、A100（A2 Standard）、H100（A3 High）GPU ハードウェアを使用してテストされています。

次のステップ

Gemma のドキュメントを確認する。