RAG 変換を微調整する
コレクションでコンテンツを整理
必要に応じて、コンテンツの保存と分類を行います。
ドキュメントが取り込まれると、Vertex AI RAG Engine が一連の変換を実行して、インデックス登録用のデータを準備します。次のパラメータを使用して、ユースケースを制御できます。
パラメータ |
説明 |
chunk_size |
ドキュメントがインデックスに取り込まれると、チャンクに分割されます。(トークン内の)chunk_size パラメータはチャンクのサイズを指定します。デフォルトのチャンクサイズは 1,024 トークンです。 |
chunk_overlap |
デフォルトでは、ドキュメントは一定量の重複があるチャンクに分割され、関連性と検索品質が向上します。デフォルトのチャンク オーバーラップは 200 トークンです。 |
チャンクサイズが小さいほど、エンベディングの精度が高くなります。チャンクサイズを大きくすると、エンベディングはより一般的な内容になりますが、特定の詳細情報が欠落する可能性があります。
たとえば、1,000 語を 200 語用に想定されたエンベディング配列に変換すると、詳細が失われる可能性があります。エンベディング容量はチャンクごとに固定されています。テキストの大きなチャンクは、小さなウィンドウ モデルに収まらない可能性があります。
次のステップ
特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。
最終更新日 2025-02-14 UTC。
[[["わかりやすい","easyToUnderstand","thumb-up"],["問題の解決に役立った","solvedMyProblem","thumb-up"],["その他","otherUp","thumb-up"]],[["わかりにくい","hardToUnderstand","thumb-down"],["情報またはサンプルコードが不正確","incorrectInformationOrSampleCode","thumb-down"],["必要な情報 / サンプルがない","missingTheInformationSamplesINeed","thumb-down"],["翻訳に関する問題","translationIssue","thumb-down"],["その他","otherDown","thumb-down"]],["最終更新日 2025-02-14 UTC。"],[],[]]