このページは Cloud Translation API によって翻訳されました。

翻訳 LLM モデルの教師ありファインチューニングデータを準備する

このドキュメントでは、Translation LLM モデルの教師ありファインチューニングデータセットを定義する方法について説明します。テキストデータ型をチューニングできます。

教師ありファインチューニングデータセットについて

教師ありファインチューニングデータセットは、事前トレーニング済みモデルを特定のドメインに合わせてファインチューニングするために使用されます。入力データは、モデルが実際の使用で遭遇すると想定される内容に近いものである必要があります。出力ラベルは、各入力の正解または結果を表すようにします。

トレーニングデータセット

モデルをチューニングするには、トレーニングデータセットを提供します。最適な結果を得るために、100 個のサンプルから始めることをおすすめします。必要に応じて、数千のサンプルにスケールアップできます。データセットは量よりも質のほうがはるかに重要です。

制限事項:

サンプルあたりの入力トークンと出力トークンの最大数: 1,000
トレーニングデータセットの最大ファイルサイズ: JSONL の場合、最大 1 GB。

検証データセット

検証データセットを提供することを強くおすすめします。検証データセットは、チューニングジョブの効果を測定するのに役立ちます。

制限事項:

サンプルあたりの入力トークンと出力トークンの最大数: 1,000
検証データセットのサンプルの最大数: 1,024
トレーニングデータセットの最大ファイルサイズ: JSONL の場合、最大 1 GB。

データセットのフォーマット

モデルのチューニング用データセットは、JSON Lines（JSONL）形式で、各行に 1 つのチューニングサンプルが含まれている必要があります。モデルをチューニングする前に、データセットを Cloud Storage バケットにアップロードする必要があります。必ず us-central1 にアップロードしてください。

{
  "contents": [
    {
      "role": string,
      "parts": [
        {
          "text": string,
        }
      ]
    }
  ]
}

パラメータ

この例には、データと次のパラメータが含まれています。

パラメータ

パラメータ
`contents`	必須: `Content` モデルとの現在の会話の内容。シングルターンのクエリの場合、これは単一のインスタンスです。

contents

必須: Content

モデルとの現在の会話の内容。

シングルターンのクエリの場合、これは単一のインスタンスです。

`translation-llm-002` のデータセットの例

{
  "contents": [
    {
      "role": "user",
      "parts": [
        {
          "text": "English: Hello. Spanish:",
        }
      ]
    }
    {
      "role": "model"",
      "parts": [
        {
          "text": "Hola.",
        }
      ]
    }
  ]
}

このクラスは、role と parts という 2 つの主要なプロパティで構成されています。role プロパティはコンテンツを生成している個人を表し、parts プロパティには複数の要素が含まれます。各要素はメッセージ内のデータセグメントを表します。

パラメータ

パラメータ
`role`	省略可: `string` メッセージを作成するエンティティの ID。次の値を使用できます。 `user`: メッセージが実際のユーザーによって送信されたことを示します（通常はユーザー生成のメッセージ）。 `model`: メッセージがモデルによって生成されたことを示します。
`parts`	`part` 1 つのメッセージを構成する順序付きのパーツのリスト。トークンの最大数や画像の数など、入力に関する制限については、Google モデルのページでモデルの仕様をご覧ください。リクエスト内のトークンの数を計算するには、トークン数を取得するをご覧ください。

role

省略可: string

メッセージを作成するエンティティの ID。次の値を使用できます。

user: メッセージが実際のユーザーによって送信されたことを示します（通常はユーザー生成のメッセージ）。
model: メッセージがモデルによって生成されたことを示します。

parts

part

1 つのメッセージを構成する順序付きのパーツのリスト。

トークンの最大数や画像の数など、入力に関する制限については、Google モデルのページでモデルの仕様をご覧ください。

リクエスト内のトークンの数を計算するには、トークン数を取得するをご覧ください。

パーツ

マルチパート Content メッセージの一部であるメディアを含むデータ型。

パラメータ

パラメータ
`text`	省略可: `string` テキストプロンプトまたはコードスニペット。

text

省略可: string

テキストプロンプトまたはコードスニペット。

チューニング用データセットを Cloud Storage にアップロードする

チューニングジョブを実行するには、1 つ以上のデータセットを Cloud Storage バケットにアップロードする必要があります。新しい Cloud Storage バケットを作成するか、既存のバケットを使用してデータセットファイルを保存できます。バケットのリージョンは重要ではありませんが、モデルをチューニングする Google Cloud プロジェクトのバケットを使用することをおすすめします。

バケットの準備ができたら、データセットファイルをバケットにアップロードします。