デベロッパー

モデル適応をマスターする: Google Cloud でのファインチューニングガイド

2026年2月20日

https://storage.googleapis.com/gweb-cloudblog-publish/images/finetuning-hero-image.max-2600x2600.jpg

Drew Brown

Developer Advocate

※この投稿は米国時間 2026 年 2 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。

AI アプリケーションを構築している場合、プロンプトをテストしたり、エージェントを試してみたりするかもしれません。しかし、プロトタイプから本番環境に移行するにつれて、モデルの整合性が十分でないという、よくある壁にぶつかることがあります。

Gemini は非常に優れた汎用基盤モデルですが、ブランドのスタイルガイドに沿った回答をより一貫して生成したい場合や、API がカスタムの非標準 JSON 形式で毎回フォーマットされるようにしたい場合もあるでしょう。多くの場合は、プロンプトエンジニアリングとコンテキスト内学習だけで必要な結果を得ることができます。しかし、より専門性の高い本番環境要件に移行するにつれて、モデルの能力をさらに引き出したいと考えるかもしれません。そこでファインチューニングの出番です。

ファインチューニングでは、Gemini 2.5 Flash などの汎用モデルや Llama などのオープンソースモデルを、特定のドメインに適応させることができます。独自の例を含むキュレートされたデータセットでモデルをトレーニングすることで、次のことが可能になります。

整合性を確保する: 特定の回答スタイルや非標準のデータ形式を毎回返すことができます。
効率を高める: 一部のタスクでは、ファインチューニングされた、より小さく、安価で、レイテンシの低いモデルでも同様のパフォーマンスを実現できます。
特化する: トレーニングデータが少ない分野では、ファインチューニングによって精度が向上し、ハルシネーションが減少します。

Google は、プロダクションレディな AI シリーズの一環として、Google Cloud における 2 つの異なるファインチューニングオプションをカバーする 2 つの新しいハンズオンラボをリリースします。1 つは Vertex AI のフルマネージドエクスペリエンス、もう 1 つは Google Kubernetes Engine（GKE）の自由にカスタマイズ可能なパスです。

オプション 1: Vertex AI を使用したマネージドパス

多くのデベロッパーにとって、目標はインフラストラクチャのオーバーヘッドをできるだけ抑えながらモデルのパフォーマンスを向上させることです。すぐにモデル適応を実現できる「ボタン」があったら便利でしょう。

Vertex AI には、Gemini などのモデルをファインチューニングするためのフルマネージドサービスが用意されています。GPU のプロビジョニング、チェックポイントの管理、複雑なトレーニングループの記述について心配する必要はありません。データを指定してパラメータを構成するだけで、残りの処理は Vertex AI が行います。

https://storage.googleapis.com/gweb-cloudblog-publish/images/vertex-stats.max-1000x1000.png

最初の新しい Codelab では、軽量で効率性の高いモデルである Gemini 2.5 Flash をファインチューニングする方法をご紹介します。Vertex AI SDK for Python を使用した教師ありファインチューニング（SFT）のワークフロー全体を知ることができます。

学習内容

データ準備: Gemini で想定される JSONL 形式に元データを変換する方法。
ベースライン: 改善を定量化するために、まずベースモデルを評価する方法。
チューニング: わずか数行の Python でチューニングジョブを起動する方法。
評価: ROUGE などの自動指標を使用して、新しいチューニング済みモデルをベースモデルと比較する方法。

オプション 2: GKE を使用したカスタムパス

本番環境の要件によっては、完全な制御が必要になることがあります。Llama、Mistral、Gemma などのオープンソースモデルを使用している場合、特定の重みを調整したり、カスタムトレーニングライブラリを使用したり、特定のハードウェア構成で実行したりする必要があります。

Google Kubernetes Engine（GKE）は、そのために最適なプラットフォームです。Google のスケーラブルなインフラストラクチャのメリットを享受しながら、独自の GPU リソースと環境を管理し、AI ワークロードを柔軟にオーケストレートできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/gke-stats.max-800x800.png

2 つ目のファインチューニング Codelab では、Kubernetes における MLOps の基本を学びます。LoRA（Low-Rank Adaptation）と呼ばれる手法を使用して Llama 2 をファインチューニングします。LoRA では、事前トレーニング済みモデルの重みが固定され、目的に合わせてチューニングされた、より小さいトレーニング可能なパラメータレイヤが注入されるため、多くのモデルを効率的にファインチューニングできます。これにより、トレーニングが必要なパラメータの数が大幅に減り、より小さく、費用対効果の高いアクセラレータで巨大なモデルをファインチューニングできるようになります。

学習内容

インフラストラクチャ: GPU ノードプール（特に NVIDIA L4 GPU を使用）で GKE クラスタをプロビジョニングする方法。
効率性: LoRA を使用して、膨大な費用をかけなくても 70 億パラメータモデルをファインチューニングできる方法。
セキュリティ: Workload Identity を使用して、サービスアカウントキーを管理しなくても Cloud Storage に安全にアクセスできる方法。
コンテナ化: 再現可能な実行のために、PyTorch トレーニングコードを Docker コンテナにパッケージ化する方法。

どのパスを選択すべきか？

Vertex AI は、迅速なイテレーションが必要であり、マネージドサービスを希望し、Google の強力な Gemini モデルを基盤として構築する場合に選択できます。
GKE を選択できるのは、詳細なカスタマイズが必要な場合、オープンソースエコシステム（Hugging Face、Llama など）にコミットしている場合、またはトレーニングを既存の Kubernetes ベースのプラットフォームに緊密に統合する必要がある場合です。

どちらのパスを選んでも同じ目的地、つまり汎用モデルでは決して実現できないレベルでビジネスを理解した、本番環境対応のモデルに到達できます。