Nachdem ein Dokument aufgenommen wurde, führt die Vertex AI RAG Engine eine Reihe von Transformationen aus, um die Daten für die Indexierung vorzubereiten. Sie können Ihre Anwendungsfälle mit den folgenden Parametern steuern:
Parameter | Beschreibung |
---|---|
chunk_size |
Wenn Dokumente in einen Index aufgenommen werden, werden sie in Blöcke unterteilt. Der Parameter chunk_size (in Tokens) gibt die Größe des Blocks an. Die standardmäßige Blockgröße beträgt 1.024 Tokens. |
chunk_overlap |
Standardmäßig werden Dokumente in Blöcke unterteilt, mit einem gewissen Grad an Überschneidungen, um die Relevanz und die Abrufqualität zu verbessern. Die standardmäßige Blocküberschneidung beträgt 200 Tokens. |
Eine kleinere Blockgröße bedeutet, dass die Einbettungen genauer sind. Ein größerer Block bedeutet, dass die Einbettungen allgemeiner sein können, aber bestimmte Details nicht erfasst werden.
Wenn Sie beispielsweise 1.000 Wörter in ein Einbettungsarray umwandeln, das für 200 Wörter gedacht war, gehen möglicherweise Details verloren. Die Einbettungskapazität ist für jeden Chunk festgelegt. Ein großer Textblock passt möglicherweise nicht in ein Modell mit kleinen Fenstern.
Nächste Schritte
- Verwenden Sie den Document AI-Layout-Parser mit der Vertex AI-RAG-Engine.