このページは Cloud Translation API によって翻訳されました。

RAG 変換を微調整する

ドキュメントが取り込まれると、Vertex AI RAG Engine が一連の変換を実行して、インデックス登録用のデータを準備します。次のパラメータを使用して、ユースケースを制御できます。

パラメータ	説明
`chunk_size`	ドキュメントがインデックスに取り込まれると、チャンクに分割されます。（トークン内の）`chunk_size` パラメータはチャンクのサイズを指定します。デフォルトのチャンクサイズは 1,024 トークンです。
`chunk_overlap`	デフォルトでは、ドキュメントは一定量の重複があるチャンクに分割され、関連性と検索品質が向上します。デフォルトのチャンクオーバーラップは 200 トークンです。

チャンクサイズが小さいほど、エンベディングの精度が高くなります。チャンクサイズを大きくすると、エンベディングはより一般的な内容になりますが、特定の詳細情報が欠落する可能性があります。

たとえば、1,000 語を 200 語用に想定されたエンベディング配列に変換すると、詳細が失われる可能性があります。エンベディング容量はチャンクごとに固定されています。テキストの大きなチャンクは、小さなウィンドウモデルに収まらない可能性があります。

次のステップ