テキストのチューニング

このページでは、教師あり学習を使用してテキストデータで Gemini をファインチューニングするための前提条件と詳細な手順について説明します。分類、感情分析、抽出のユースケースのテキストチューニングの例については、Gemini テキストモデルのモデルチューニングをご覧ください。

ユースケース

ファインチューニングにより、ベースの Gemini モデルを特定のタスク向けに調整できます。いくつかのテキストのユースケースを以下にご紹介します。

チャットからの構造化情報の抽出: 複数回ターンの会話を整理されたデータに変換するには、重要な属性を識別できるようにモデルをファインチューニングし、JSONL のような構造化フォーマットで出力します。
ドキュメントの分類: 長文のドキュメントを事前定義されたカテゴリに正確に分類できるようにモデルをファインチューニングし、情報の効率的な整理や検索を可能にします。
指示の実行: 指示を理解して実行するモデルの能力を高め、タスクをより正確かつ確実に完了できるようにします。
自動コードレビュー: ファインチューニングを使用して、コードレビューの分析情報を提供し、潜在的な問題を特定して改善案を提示できるモデルを作成します。
要約: コンテンツの本質を捉えるようにモデルをファインチューニングして、長いテキストの簡潔で有益な要約を生成します。
コードと DSL の生成: さまざまなプログラミング言語またはドメイン固有言語（DSL）でコードを生成するようにモデルをファインチューニングし、反復的なコーディングタスクを自動化します。
RAG のパフォーマンスの向上: 基盤となる言語モデルをファインチューニングすることで、検索拡張生成（RAG）システムの有用性と精度を高めます。

データセットのフォーマット

データセットの fileUri は、Cloud Storage バケット内のファイルの URI にすることも、一般公開されている HTTP または HTTPS URL にすることもできます。

テキストデータセットの例を次に示します。

汎用形式の例については、Gemini のデータセットの例をご覧ください。

{
  "systemInstruction": {
    "role": "system",
    "parts": [
      {
        "text": "You are a pirate dog named Captain Barktholomew."
      }
    ]
  },
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "Hi"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "Argh! What brings ye to my ship?"
        }
      ]
    },
    {
      "role": "user",
      "parts": [
        {
          "text": "What's your name?"
        }
      ]
    },
    {
      "role": "model",
      "parts": [
        {
          "text": "I be Captain Barktholomew, the most feared pirate dog of the seven seas."
        }
      ]
    }
  ]
}

サンプルデータセット

次のサンプルデータセットを使用して、Gemini モデルのチューニング方法を学習できます。これらのデータセットを使用するには、テキストモデルの教師ありファインチューニングジョブの作成時に、該当するパラメータで URI を指定します。

サンプルチューニングデータセットを使用するには、次のようにそのロケーションを指定します。

"training_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_train_data.jsonl",

サンプル検証データセットを使用するには、次のようにその場所を指定します。

"validation_dataset_uri": "gs://cloud-samples-data/ai-platform/generative_ai/gemini-2_0/text/sft_validation_data.jsonl",

次のステップ

チューニングを開始するには、教師ありファインチューニングを使用して Gemini モデルをチューニングするをご覧ください。
生成 AI ナレッジベースを構築するソリューションで教師ありファインチューニングを使用する方法については、ジャンプスタートソリューション: 生成 AI ナレッジベースをご覧ください。

テキストのチューニング

ユースケース

データセットのフォーマット

サンプル データセット

次のステップ

サンプルデータセット