翻訳 LLM モデルの教師ありファインチューニング データを準備する

このドキュメントでは、Translation LLM モデルの教師ありファインチューニング データセットを定義する方法について説明します。テキスト データ型をチューニングできます。

教師ありファインチューニング データセットについて

教師ありファインチューニング データセットは、事前トレーニング済みモデルを特定のドメインに合わせてファインチューニングするために使用されます。入力データは、モデルが実際の使用で遭遇すると想定される内容に近いものである必要があります。出力ラベルは、各入力の正解または結果を表すようにします。

トレーニング データセット

モデルをチューニングするには、トレーニング データセットを提供します。最適な結果を得るために、100 個のサンプルから始めることをおすすめします。必要に応じて、数千のサンプルにスケールアップできます。データセットは量よりも質のほうがはるかに重要です。

制限事項:

  • サンプルあたりの入力トークンと出力トークンの最大数: 1,000
  • トレーニング データセットの最大ファイルサイズ: JSONL の場合、最大 1 GB。

検証データセット

検証データセットを提供することを強くおすすめします。検証データセットは、チューニング ジョブの効果を測定するのに役立ちます。

制限事項:

  • サンプルあたりの入力トークンと出力トークンの最大数: 1,000
  • 検証データセットのサンプルの最大数: 1,024
  • トレーニング データセットの最大ファイルサイズ: JSONL の場合、最大 1 GB。

データセットのフォーマット

モデルのチューニング用データセットは、JSON Lines(JSONL)形式で、各行に 1 つのチューニング サンプルが含まれている必要があります。モデルをチューニングする前に、データセットを Cloud Storage バケットにアップロードする必要があります。必ず us-central1 にアップロードしてください。

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

パラメータ

この例には、データと次のパラメータが含まれています。

パラメータ

contents

必須: Content

モデルとの現在の会話の内容。

シングルターンのクエリの場合、これは単一のインスタンスです。

translation-llm-002 のデータセットの例

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

目次

メッセージのマルチパート コンテンツを含む基本的な構造化データ型。

このクラスは、roleparts という 2 つの主要なプロパティで構成されています。role プロパティはコンテンツを生成している個人を表し、parts プロパティには複数の要素が含まれます。各要素はメッセージ内のデータ セグメントを表します。

パラメータ

role

省略可: string

メッセージを作成するエンティティの ID。次の値を使用できます。

  • user: メッセージが実際のユーザーによって送信されたことを示します(通常はユーザー生成のメッセージ)。
  • model: メッセージがモデルによって生成されたことを示します。

parts

part

1 つのメッセージを構成する順序付きのパーツのリスト。

トークンの最大数や画像の数など、入力に関する制限については、Google モデルのページでモデルの仕様をご覧ください。

リクエスト内のトークンの数を計算するには、トークン数を取得するをご覧ください。

パーツ

マルチパート Content メッセージの一部であるメディアを含むデータ型。

パラメータ

text

省略可: string

テキスト プロンプトまたはコード スニペット。

チューニング用データセットを Cloud Storage にアップロードする

チューニング ジョブを実行するには、1 つ以上のデータセットを Cloud Storage バケットにアップロードする必要があります。新しい Cloud Storage バケットを作成するか、既存のバケットを使用してデータセット ファイルを保存できます。バケットのリージョンは重要ではありませんが、モデルをチューニングする Google Cloud プロジェクトのバケットを使用することをおすすめします。

バケットの準備ができたら、データセット ファイルをバケットにアップロードします。

データ準備用のノートブックの例

使い始めるうえで参考になる Colab ノートブックの例を次に示します。

AutoML Translation データセット

翻訳データセットがすでに AutoML Translation にアップロードされている場合は、Colab の例に沿ってエクスポートしてチューニングできます。

Google Colaboratory のロゴ
Colab で実行
Google Cloud Colab Enterprise ロゴ
Colab Enterprise で実行
GitHub ロゴ
GitHub で表示

ローカル データセット

ローカルに TSV、CSV、TMX 形式のデータがある場合は、Colab にアップロードしてチューニングできます。

Google Colaboratory のロゴ
Colab で実行
Google Cloud Colab Enterprise ロゴ
Colab Enterprise で実行
GitHub ロゴ
GitHub で表示

次のステップ