Gemma オープンモデルを使用する

Gemma は、軽量の生成 AI(AI)オープンモデルのセットです。Gemma モデルは、アプリケーション内、ハードウェア、モバイル デバイス、ホスト型サービスで実行できます。また、これらのモデルをチューニング技術でカスタマイズし、デベロッパーやユーザーにとって重要なタスクを実行することもできます。Gemma モデルは Gemini モデルに基づいており、AI 開発コミュニティの拡大とさらなる発展を目的としています。

ファインチューニングを行うと、特定のタスクにおけるモデルのパフォーマンスを改善できます。Gemma モデル ファミリーのモデルはオープン ウェイトであるため、任意の AI フレームワークと Vertex AI SDK を使用してチューニングできます。Model Garden の Gemma モデルカードにあるリンクを使用して、ノートブックの例を開き Gemma モデルをファインチューニングできます。

Vertex AI で使用できる Gemma モデルは次のとおりです。Gemma モデルの詳細とテストについては、Model Garden のモデルカードをご覧ください。

モデル名 ユースケース Model Garden のモデルカード
Gemma 2 テキストの生成、要約、抽出に最適。 Gemma 2 モデルカードに移動する
Gemma テキストの生成、要約、抽出に最適。 Gemma モデルカードに移動する
CodeGemma コードの生成と補完に最適。 CodeGemma モデルカードに移動
PaliGemma 画像のキャプション付けや、視覚的な質問と回答のタスクに最適。 PaliGemma モデルカードに移動

Gemma を使用できる場所は次のとおりです。

Vertex AI で Gemma を使用する

Vertex AI は、社内の MLOps の専門知識がなくても、ML プロジェクトを迅速に構築してスケーリングできるマネージド プラットフォームを提供します。Vertex AI は、Gemma モデルを提供するダウンストリーム アプリケーションとして使用できます。たとえば、Gemma の Keras 実装から重みを移植できます。このバージョンの Gemma を Vertex AI で提供し、予測を行うことができます。エンドツーエンドの MLOps 機能、付加価値のある ML 機能、開発の合理化に役立つサーバーレス エクスペリエンスが必要な場合は、Vertex AI を使用することをおすすめします。

Gemma の使用を開始するには、次のノートブックをご覧ください。

他の Google Cloud プロダクトで Gemma を使用する

Gemma は、Google Kubernetes Engine や Dataflow などの他の Google Cloud プロダクトで使用できます。

GKE で Gemma を使用する

Google Kubernetes Engine(GKE)は、拡張性、セキュリティ、復元力、費用対効果に優れたマネージド Kubernetes 向けの Google Cloud ソリューションです。既存の Kubernetes への投資があり、組織内に独自の MLOps 専門知識が存在しているか、独自のセキュリティ、データ パイプライン、リソース管理要件に従って複雑な AI / ML ワークロードをきめ細かく制御する必要がある場合は、このオプションをおすすめします。詳細については、GKE ドキュメントの次のチュートリアルをご覧ください。

Dataflow で Gemma を使用する

Dataflow で Gemma モデルを使用して感情分析を行うことができます。Dataflow を使用して、Gemma モデルを使用する推論パイプラインを実行します。詳細については、Gemma オープンモデルを使用して推論パイプラインを実行するをご覧ください。

Colab で Gemma を使用する

Colaboratory で Gemma を使用して Gemma ソリューションを作成できます。Colab では、PyTorch や JAX などのフレームワーク オプションとともに Gemma を使用できます。詳しくは、次をご覧ください。

Gemma モデルのサイズと機能

Gemma モデルには複数のサイズがあり、利用可能なコンピューティング リソース、必要な機能、実行場所に基づいて生成 AI ソリューションを構築できます。各モデルには、チューニング済みバージョンとまだチューニングされていないバージョンがあります。

  • 事前トレーニング済み - このバージョンのモデルは、Gemma コアデータのトレーニング セット以外の特定のタスクや指示ではトレーニングされていません。チューニングを行わずにこのモデルを使用することはおすすめしません。

  • 指示のチューニング済み - このバージョンのモデルは、基本的な chat bot と同様に会話に参加できるように、人間の言語のやり取りでトレーニングされています。

  • ミックス ファインチューニング済み - このバージョンのモデルは、学術データセットの組み合わせでファインチューニングされており、自然言語のプロンプトを受け付けます。

パラメータ サイズが小さいほど、リソース要件が少なく、デプロイの柔軟性が高くなります。

モデル名 パラメータ サイズ 入力 出力 チューニング済みバージョン 目的のプラットフォーム
Gemma 2
Gemma 27B 270 億 テキスト テキスト
  • トレーニング済み
  • 指示のチューニング済み
大規模なサーバーまたはサーバー クラスタ
Gemma 9B 90 億人の テキスト テキスト
  • トレーニング済み
  • 指示のチューニング済み
ハイエンド デスクトップ パソコンとサーバー
Gemma 2B 20 億 テキスト テキスト
  • トレーニング済み
  • 指示のチューニング済み
モバイル デバイスとノートパソコン
Gemma
Gemma 7B 70 億 テキスト テキスト
  • トレーニング済み
  • 指示のチューニング済み
デスクトップ コンピュータと小規模サーバー
Gemma 2B 22 億 テキスト テキスト
  • トレーニング済み
  • 指示のチューニング済み
モバイル デバイスとノートパソコン
CodeGemma
CodeGemma 7B 70 億 テキスト テキスト
  • トレーニング済み
  • 指示のチューニング済み
デスクトップ コンピュータと小規模サーバー
CodeGemma 2B 20 億 テキスト テキスト
  • トレーニング済み
デスクトップ コンピュータと小規模サーバー
PaliGemma
PaliGemma 3B 30 億 テキスト テキスト
  • トレーニング済み
  • ミックス ファインチューニング済み
デスクトップ コンピュータと小規模サーバー

Gemma は、Google の専用 v5e TPU ハードウェアと NVIDIA の L4(G2 Standard)、A100(A2 Standard)、H100(A3 High)GPU ハードウェアを使用してテストされています。

次のステップ