ドキュメントが取り込まれると、Vertex AI RAG Engine が一連の変換を実行して、インデックス登録用のデータを準備します。次のパラメータを使用して、ユースケースを制御できます。
パラメータ | 説明 |
---|---|
chunk_size |
ドキュメントがインデックスに取り込まれると、チャンクに分割されます。(トークン内の)chunk_size パラメータはチャンクのサイズを指定します。デフォルトのチャンクサイズは 1,024 トークンです。 |
chunk_overlap |
デフォルトでは、ドキュメントは一定量の重複があるチャンクに分割され、関連性と検索品質が向上します。デフォルトのチャンク オーバーラップは 200 トークンです。 |
チャンクサイズが小さいほど、エンベディングの精度が高くなります。チャンクサイズを大きくすると、エンベディングはより一般的な内容になりますが、特定の詳細情報が欠落する可能性があります。
たとえば、1,000 語を 200 語用に想定されたエンベディング配列に変換すると、詳細が失われる可能性があります。エンベディング容量はチャンクごとに固定されています。テキストの大きなチャンクは、小さなウィンドウ モデルに収まらない可能性があります。