このドキュメントでは、Translation LLM モデルの教師ありファインチューニング データセットを定義する方法について説明します。テキスト データ型をチューニングできます。
教師ありファインチューニング データセットについて
教師ありファインチューニング データセットは、事前トレーニング済みモデルを特定のドメインに合わせてファインチューニングするために使用されます。入力データは、モデルが実際の使用で遭遇すると想定される内容に近いものである必要があります。出力ラベルは、各入力の正解または結果を表すようにします。
トレーニング データセット
モデルをチューニングするには、トレーニング データセットを提供します。最適な結果を得るために、100 個のサンプルから始めることをおすすめします。必要に応じて、数千のサンプルにスケールアップできます。データセットは量よりも質のほうがはるかに重要です。
制限事項:
- サンプルあたりの入力トークンと出力トークンの最大数: 1,000
- トレーニング データセットの最大ファイルサイズ: JSONL の場合、最大 1 GB。
検証データセット
検証データセットを提供することを強くおすすめします。検証データセットは、チューニング ジョブの効果を測定するのに役立ちます。
制限事項:
- サンプルあたりの入力トークンと出力トークンの最大数: 1,000
- 検証データセットのサンプルの最大数: 1,024
- トレーニング データセットの最大ファイルサイズ: JSONL の場合、最大 1 GB。
データセットのフォーマット
モデルのチューニング用データセットは、JSON Lines(JSONL)形式で、各行に 1 つのチューニング サンプルが含まれている必要があります。モデルをチューニングする前に、データセットを Cloud Storage バケットにアップロードする必要があります。必ず us-central1 にアップロードしてください。
{
"contents": [
{
"role": string,
"parts": [
{
"text": string,
}
]
}
]
}
パラメータ
この例には、データと次のパラメータが含まれています。
パラメータ | |
---|---|
|
必須: モデルとの現在の会話の内容。 シングルターンのクエリの場合、これは単一のインスタンスです。 |
translation-llm-002
のデータセットの例
{
"contents": [
{
"role": "user",
"parts": [
{
"text": "English: Hello. Spanish:",
}
]
}
{
"role": "model"",
"parts": [
{
"text": "Hola.",
}
]
}
]
}
目次
メッセージのマルチパート コンテンツを含む基本的な構造化データ型。
このクラスは、role
と parts
という 2 つの主要なプロパティで構成されています。role
プロパティはコンテンツを生成している個人を表し、parts
プロパティには複数の要素が含まれます。各要素はメッセージ内のデータ セグメントを表します。
パラメータ | |
---|---|
|
省略可: メッセージを作成するエンティティの ID。次の値を使用できます。
|
|
1 つのメッセージを構成する順序付きのパーツのリスト。 トークンの最大数や画像の数など、入力に関する制限については、Google モデルのページでモデルの仕様をご覧ください。 リクエスト内のトークンの数を計算するには、トークン数を取得するをご覧ください。 |
パーツ
マルチパート Content
メッセージの一部であるメディアを含むデータ型。
パラメータ | |
---|---|
|
省略可: テキスト プロンプトまたはコード スニペット。 |
チューニング用データセットを Cloud Storage にアップロードする
チューニング ジョブを実行するには、1 つ以上のデータセットを Cloud Storage バケットにアップロードする必要があります。新しい Cloud Storage バケットを作成するか、既存のバケットを使用してデータセット ファイルを保存できます。バケットのリージョンは重要ではありませんが、モデルをチューニングするGoogle Cloud プロジェクトのバケットを使用することをおすすめします。
バケットの準備ができたら、データセット ファイルをバケットにアップロードします。
次のステップ
- 教師ありファインチューニング ジョブを実行します。