RAG 변환 미세 조정

문서가 수집된 후 Vertex AI RAG 엔진은 일련의 변환을 실행하여 색인을 생성할 데이터를 준비합니다. 다음 매개변수를 사용하여 사용 사례를 제어할 수 있습니다.

매개변수 설명
chunk_size 문서가 색인에 수집되면 청크로 분할됩니다. 토큰의 chunk_size 파라미터는 청크의 크기를 지정합니다. 기본 청크 크기는 토큰 1,024개입니다.
chunk_overlap 기본적으로, 문서는 관련성과 검색 품질을 개선하기 위해 일정한 수준의 중복이 있는 청크로 분할됩니다. 기본 청크 중복은 토큰 200개입니다.

청크 크기가 작을수록 임베딩이 더 정밀하다는 의미입니다. 청크 크기가 클수록 임베딩이 더 일반적일 수 있지만 특정 세부정보가 누락될 수 있습니다.

예를 들어 1,000단어를 200단어용 임베딩 배열로 변환하면 세부정보가 손실될 수 있습니다. 임베딩 용량은 청크마다 고정됩니다. 큰 텍스트 청크는 작은 창 모델에 적합하지 않을 수 있습니다.

다음 단계