Afinar las transformaciones de RAG

Una vez que se ha ingerido un documento, Vertex AI RAG Engine ejecuta una serie de transformaciones para preparar los datos para la indexación. Puedes controlar tus casos prácticos con los siguientes parámetros:

Parámetro Descripción
chunk_size Cuando se ingieren documentos en un índice, se dividen en fragmentos. El parámetro chunk_size (en tokens) especifica el tamaño del fragmento. El tamaño predeterminado del fragmento es de 1024 tokens.
chunk_overlap De forma predeterminada, los documentos se dividen en fragmentos con una determinada cantidad de superposición para mejorar la relevancia y la calidad de la recuperación. La superposición de fragmentos predeterminada es de 256 tokens.

Cuanto más pequeño sea el tamaño del fragmento, más precisos serán los embeddings. Si el tamaño del fragmento es mayor, las inserciones pueden ser más generales, pero es posible que no incluyan detalles específicos.

Por ejemplo, si conviertes 1000 palabras en una matriz de inserción que estaba pensada para 200 palabras, es posible que pierdas detalles. La capacidad de inserción es fija para cada fragmento. Es posible que una gran parte del texto no quepa en un modelo de ventana pequeña.

Siguientes pasos