Después de transferir un documento, el motor de RAG de Vertex AI ejecuta un conjunto de transformaciones para preparar los datos para la indexación. Puedes controlar tus casos de uso con los siguientes parámetros:
Parámetro | Descripción |
---|---|
chunk_size |
Cuando los documentos se transfieren a un índice, se dividen en fragmentos. El parámetro chunk_size (en tokens) especifica el tamaño del fragmento. El tamaño de fragmento predeterminado es de 1,024 tokens. |
chunk_overlap |
De forma predeterminada, los documentos se dividen en fragmentos con una cierta cantidad de superposición para mejorar la relevancia y la calidad de la recuperación. La superposición de fragmentos predeterminada es de 200 tokens. |
Un tamaño de fragmento más pequeño significa que las incorporaciones son más precisas. Un tamaño de fragmento más grande significa que las incorporaciones pueden ser más generales, pero es posible que se pierdan detalles específicos.
Por ejemplo, si conviertes 1,000 palabras en un array de incorporaciones que estaba destinado a 200 palabras, es posible que pierdas detalles. La capacidad de incorporación es fija para cada fragmento. Es posible que un gran fragmento de texto no se ajuste a un modelo de ventana pequeña.