LLM と AI モデルのファインチューニング

大規模言語モデル(LLM)は、メールの作成から複雑な質問への回答に至るまで、さまざまなタスクに役立つ強力なツールです。しかし、これらのモデルは、プロジェクトで必要としている作業内容を完全に理解できない場合があります。そこで必要になるのがモデルのファインチューニングですこれは、優秀な生徒にさらに特別なスキルを教えるようなものです。

Google AI Studio で Gemini をファインチューニングする

ファインチューニングとは

ファインチューニングでは、事前トレーニング済みの LLM をタスク固有のデータセットでさらにトレーニングします(転移学習プロセス)。事前トレーニング済みモデルはすでに多くの一般的な情報を学習しており、ファインチューニングによって特定の分野に特化できるようになります。

ファインチューニングと RAG の使い分け

LLM を特定の用途に合わせて調整するには、ファインチューニングと検索拡張生成(RAG)という 2 つの方法を使用できます。タスクの種類、十分なデータがあるかどうか、達成したい目標などの要素を考慮して、適切な方法を選択します。

手法


主な違い


メリット

課題

ファインチューニング

モデルのパラメータを変更する。

精度向上、特異性強化、ハルシネーションの軽減、カスタマイズされたインタラクション、費用対効果、バイアスの低減。

「壊滅的忘却」のリスク、リソース費用の増加、データ需要の増大、「過学習」の可能性。

RAG


外部知識でプロンプトを拡張する。

動的な知識統合、コンテキストの関連性、汎用性、大規模なトレーニングの必要性の低減。

精度が限られる(たとえば、RAG が参照できるのはアクセスできるデータのみであり、トレーニングに基づく推論はできない)、RAG システムの保守が複雑、ハルシネーションの可能性。

手法


主な違い


メリット

課題

ファインチューニング

モデルのパラメータを変更する。

精度向上、特異性強化、ハルシネーションの軽減、カスタマイズされたインタラクション、費用対効果、バイアスの低減。

「壊滅的忘却」のリスク、リソース費用の増加、データ需要の増大、「過学習」の可能性。

RAG


外部知識でプロンプトを拡張する。

動的な知識統合、コンテキストの関連性、汎用性、大規模なトレーニングの必要性の低減。

精度が限られる(たとえば、RAG が参照できるのはアクセスできるデータのみであり、トレーニングに基づく推論はできない)、RAG システムの保守が複雑、ハルシネーションの可能性。

LLM に以下のことを求める場合は、ファインチューニングを検討してください。

  • 特定の言語や専門用語を理解する: プロジェクトで業界固有の用語を多く使用する場合、ファインチューニングを行うと、モデルがその言語を正しく学習して使用できるようになります。
  • 特定のタスクの精度を向上させる: 顧客レビューの分類や製品説明の生成など、特定のタスクを実行する必要がある場合、ファインチューニングを行うとモデルのパフォーマンスを大幅に向上させることができます。
  • 特定のスタイルやトーンに合わせる: モデルに特定のブランドボイスや文章スタイルに合わせたテキストを生成させる場合、ファインチューニングが役立ちます。
  • 限られたデータで作業する: ファインチューニングは、事前トレーニング済みのモデルがすでに備えている知識を活用できるため、データが限られている場合は、モデルをゼロからトレーニングするよりも効率的です。
  • 費用とレイテンシの削減: 大規模のユースケースでは、リクエストごとに大規模な汎用モデルを使用するよりも、小規模なモデルをファインチューニングする方が費用対効果が高くなる場合があります。
  • エッジケースの処理: ファインチューニングにより、プロンプト エンジニアリングだけでは対処が難しいエッジケースや、複雑なプロンプトを処理するモデルの能力を向上させることができます。

ファインチューニングの仕組み: 手順ガイド

ファインチューニングは、事前トレーニング済みの LLM を基盤として構築されます。これらの事前トレーニング済みモデルは、膨大なデータセットから大量の一般的な言語知識をすでに学習しています。ファインチューニングでは、モデルはより小規模でタスク固有のデータセットにさらされ、モデルの内部パラメータ(その知識を制御する何百万もの小さなノブのようなもの)が、新しいデータセットの例によりよく一致するように調整されます。この「再トレーニング」プロセスでは、モデルの内部配線が徐々に更新され、新しいトピックに関するエキスパートになります。ファインチューニングのプロセスを、いくつかの実用的なステップに分けてみましょう。

ステップ 1: データの準備

ファインチューニングを開始する前に、データを準備することが重要です。データの品質と構造は、ファインチューニングしたモデルのパフォーマンスに直接影響します。この段階では、データを収集、クリーニング、フォーマットすることに加えて、データをトレーニング、検証、テストに合わせて分割します。

  • データの収集: モデルのファインチューニングに使用するデータを収集します。このデータは、モデルに優れたパフォーマンスを発揮させる特定のタスクに関連している必要があります。
  • クリーンアップ、フォーマット: エラー、不整合、無関係な情報を削除してデータをクリーンアップし、モデルが理解できる形式であることを確認します。
  • データの分割: データを 3 つのセットに分割します。1: トレーニング(モデルのトレーニングに使用)、2: 検証(モデルのパフォーマンスをモニタリングし、設定を調整するために使用)、3: テスト(ファインチューニングしたモデルの最終的なパフォーマンスを評価するために使用)

ステップ 2: アプローチの選択

ファインチューニングでは、事前学習済みのモデルをどの程度調整するかを選択できます。選択するアプローチは、データセットのサイズ、利用可能なコンピューティング リソース、希望する精度などの要因によって異なります。主なアプローチとしては、フル ファインチューニングとパラメータ エフィシエント ファインチューニング(PEFT)があります。


フル ファインチューニング

フル ファインチューニングでは、トレーニング中にモデルのすべてのパラメータが更新されます。このアプローチは、タスク固有のデータセットが大きく、事前トレーニング データと大きく異なる場合に適しています。  


PEFT

パラメータ エフィシエント ファインチューニング(PEFT)は、よりスマートで効率的なファインチューニングの手法です。PEFT 手法では、モデル全体を再トレーニングする(時間と費用がかかる)代わりに、元の LLM を固定し、トレーニング可能な小さな新しいレイヤを追加します。

これは、1,000 ページもある教科書をすべて書き直すのではなく、専門情報を記載した付箋を新たに数枚追加するようなものです。これにより、プロセスが大幅に高速化され、費用も削減できます。一般的な PEFT 手法には、LoRA(Low-Rank Adaptation)や QLoRA(Quantized Low-Rank Adaptation)などがあり、LLM をより効率的にファインチューニングできます。

ステップ 3: モデルのトレーニング

データの準備が整い、手法を決めたら、モデルのトレーニングに移ります。この段階で、モデルはデータから学習し、特定のタスクでのパフォーマンスを向上させるためにパラメータを調整します。最適な結果を得るには、トレーニング設定を注意深くモニタリングして調整することが不可欠です。

  • ハイパーパラメータの設定: 学習率、バッチサイズ、エポック数などの設定を構成します。これらの設定は、モデルの学習方法を制御するのに役立ちます。
  • トレーニングの開始: トレーニング データをモデルにフィードして学習させ、検証セットを使用してモデルのパフォーマンスをモニタリングする
  • 必要に応じて調整: モデルのパフォーマンスが良好でない場合は、ハイパーパラメータを調整するか、別のファインチューニング手法を試します。

ステップ 4: 評価とデプロイ

最後の段階では、ファインチューニングしたモデルのパフォーマンスを評価し、実際の使用に向けてデプロイします。そのためには、その精度と効率性を評価し、アプリケーションやシステムに統合する必要があります。最適なパフォーマンスを長期にわたって維持するには、継続的なモニタリングと再トレーニングが必要になる場合があります。

  • パフォーマンスの評価: テストセットを使用して、ファインチューニングしたモデルの最終的なパフォーマンスを評価します。精度、適合率、再現率など、タスクに関連する指標を確認します。
  • モデルのデプロイ: パフォーマンスに問題がなければ、モデルをアプリケーションやシステムにデプロイします。
  • パフォーマンスのモニタリング: 実際の環境でモデルのパフォーマンスを監視し、精度を維持するために必要に応じて再トレーニングします。

ファインチューニングの種類

目標やリソースに応じて、モデルをファインチューニングする方法を使い分けることができます。

説明

ユースケース

教師ありファインチューニング

モデルは、入出力ペアのラベル付きデータセットでトレーニングされる。

テキスト分類、固有表現認識、感情分析。

指示のファインチューニング

モデルは、指示と望ましい回答のデータセットでトレーニングされる。

chatbot、質問応答システム、コード生成。

少数ショット学習

モデルには、目的とするタスクの例がプロンプト内に用意されている。

限られたデータで新しいタスクに適応する。

転移学習

モデルは、汎用データセットでの事前トレーニングから得られた知識を活用する。

関連するタスクに適応する。

ドメイン固有のファインチューニング

モデルは特定のドメインや業界に合わせて調整される。

法的文書の分析、医療レポートの作成、財務予測。

マルチタスク学習

モデルは複数のタスクで同時にトレーニングされる。

関連するタスク全体のパフォーマンスを向上させる。

シーケンシャル ファインチューニング

モデルは、関連する一連のタスクに合わせて段階的に調整される。

複雑なタスクに対応する機能を徐々に強化する。

説明

ユースケース

教師ありファインチューニング

モデルは、入出力ペアのラベル付きデータセットでトレーニングされる。

テキスト分類、固有表現認識、感情分析。

指示のファインチューニング

モデルは、指示と望ましい回答のデータセットでトレーニングされる。

chatbot、質問応答システム、コード生成。

少数ショット学習

モデルには、目的とするタスクの例がプロンプト内に用意されている。

限られたデータで新しいタスクに適応する。

転移学習

モデルは、汎用データセットでの事前トレーニングから得られた知識を活用する。

関連するタスクに適応する。

ドメイン固有のファインチューニング

モデルは特定のドメインや業界に合わせて調整される。

法的文書の分析、医療レポートの作成、財務予測。

マルチタスク学習

モデルは複数のタスクで同時にトレーニングされる。

関連するタスク全体のパフォーマンスを向上させる。

シーケンシャル ファインチューニング

モデルは、関連する一連のタスクに合わせて段階的に調整される。

複雑なタスクに対応する機能を徐々に強化する。

ファインチューニングのベスト プラクティス

ファインチューニングを最大限に活用するには、以下のベスト プラクティスに従ってください。

  • データの品質と量: 関連性が高く、多様で、十分な量の、高品質のデータセットを使用します。ファインチューニングではデータ品質が最も重要です。データが正確で一貫性があり、エラーやバイアスがないことを確認してください。たとえば、ラベルにノイズが含まれているデータセットや、形式に一貫性がないデータセットは、モデルの学習能力を著しく低下させる可能性があります。   
  • ハイパーパラメータ チューニング: さまざまなハイパーパラメータの設定を試して、タスクに最適な構成を見つけます。   
  • 定期的な評価: トレーニング中にモデルのパフォーマンスを定期的に評価して、進捗状況を追跡し、必要な調整を行います。   
  • 過学習の回避: 早期停止や正則化などの手法を使用して、トレーニング データへの過学習を防ぎます。   
  • バイアスへの対処: データに潜在的なバイアスがないか注意し、ファインチューニングされたモデルのバイアスを軽減する手法を使用します。

LLM のファインチューニングのメリット

ファインチューニングには、次のようなメリットがあります。

精度の向上

特定のユースケースにおけるモデルの出力の精度と関連性を大幅に向上させます。AI ハルシネーションを軽減できる可能性もあります。  

高速トレーニング

ファインチューニングは、モデルをゼロからトレーニングするよりも高速で、必要なデータも少なくなります。

優れた費用対効果

新しいモデルをトレーニングするよりも、必要となるコンピューティング能力やデータ量が少ないため、費用対効果が高くなります。

カスタマイズ

ファインチューニングにより、特定のニーズや目標に合わせてモデルの動作をカスタマイズできます。

バイアスの軽減

モデルの動作をより適切に制御できるため、偏向的なコンテンツや議論の余地があるコンテンツが生成されるリスクを軽減できる可能性があります。

コンテキスト ウィンドウの拡大

ファインチューニングを使用して LLM のコンテキスト ウィンドウを拡大することで、より多くの情報を処理および保持できます。

ファインチューニングにおける一般的な課題

ファインチューニングには多くのメリットがありますが、注意すべき課題もあります。

  • 過学習: モデルがトレーニング データを学習しすぎて、新しいデータに対して一般化できない状態です。過学習は、正則化やデータ拡張などの手法を使用して軽減できます。  
  • データ不足: データが不十分だと、ファインチューニングの効果が制限される可能性があります。データ拡張手法を使用するか、関連する他のタスクから転移学習を行うことを検討してください。  
  • 壊滅的忘却: モデルをあまりにも狭い範囲に特化させると、一般的な知識を忘れてしまうことがあります。これは、専門医が超専門領域の外科医になったものの、基本的な応急処置を忘れてしまったようなものです。壊滅的忘却は、正則化やリプレイ バッファなどの手法を使用して軽減できます。  
  • コンピューティング リソース: 大規模モデルのファイン チューニングは、コンピューティング費用が高額になり、大量のメモリが必要になることがあります。コンピューティング要件を軽減するには、PEFT、量子化、分散トレーニングなどの手法の使用を検討してください。  
  • 評価: ファインチューニングされた LLM のパフォーマンスを評価することは複雑であり、指標やベンチマークを慎重に選択する必要があります。  
  • マルチタスク学習の課題: マルチタスク学習のために LLM をファインチューニングすると、トレーニング中に異なる目標が衝突するタスク干渉や、データ量が多いタスクが優位になるデータ不均衡など、固有の課題が生じます。

ファインチューニングのユースケース

ファインチューニングは、幅広いユースケースに適用できます。

カスタマー サービス

LLM をファインチューニングして、顧客からの問い合わせをより効果的に理解して対応できるようにします(chatbot など)。  

特定のドメインや文体で簡潔かつ正確な要約を生成する LLM の能力を、ファインチューニングによって向上させることができます。

コンテンツの作成

ファインチューニングされたモデルを使用して、特定のスタイルでブログ投稿、記事、商品説明を作成します。  

データ分析

ソーシャル メディアの投稿やカスタマー レビューなどのテキストデータを分類して分析するように、モデルをファインチューニングします。

ファインチューニングされたモデルを使用して、特定のプログラミング言語またはフレームワークでコードを生成します。

機械翻訳

Google 翻訳では、ファインチューニングを使用して、モデルを特定の言語ペアやドメインに適応させることで、機械翻訳の品質を向上させています。

Google Cloud での大規模なファインチューニング

Google Cloud は、モデルのファインチューニングの取り組みをサポートする堅牢なエコシステムを提供しています。統合された ML プラットフォームから、複雑な計算を高速化する特殊なハードウェアまで、あらゆるものが揃っています。基盤モデルをカスタマイズする場合でも、独自のモデルを改良する場合でも、これらのサービスはワークフロー全体を効率化します。

次のステップ

$300 分の無料クレジットと 20 以上の Always Free プロダクトを活用して、Google Cloud で構築を開始しましょう。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud