RAG 変換を微調整する

ドキュメントが取り込まれると、Vertex AI RAG Engine が一連の変換を実行して、インデックス登録用のデータを準備します。次のパラメータを使用して、ユースケースを制御できます。

パラメータ 説明
chunk_size ドキュメントがインデックスに取り込まれると、チャンクに分割されます。(トークン内の)chunk_size パラメータはチャンクのサイズを指定します。デフォルトのチャンクサイズは 1,024 トークンです。
chunk_overlap デフォルトでは、ドキュメントは一定量の重複があるチャンクに分割され、関連性と検索品質が向上します。デフォルトのチャンク オーバーラップは 200 トークンです。

チャンクサイズが小さいほど、エンベディングの精度が高くなります。チャンクサイズを大きくすると、エンベディングはより一般的な内容になりますが、特定の詳細情報が欠落する可能性があります。

たとえば、1,000 語を 200 語用に想定されたエンベディング配列に変換すると、詳細が失われる可能性があります。エンベディング容量はチャンクごとに固定されています。テキストの大きなチャンクは、小さなウィンドウ モデルに収まらない可能性があります。

次のステップ