微调 RAG 转换
  
      
    
  
  
  
  
  
    
  
  
    
    
    
    
  
注入文档后,Vertex AI RAG Engine会运行一组转换,以便为索引编制做好数据准备。您可以使用以下参数来控制使用情形:
  
      | 参数 | 说明 | 
  
    | chunk_size | 将文档注入到索引后,系统会将其拆分为多个块。 chunk_size参数(以词元为单位)指定块的大小。默认块大小为 1,024 个词元。 | 
  
    | chunk_overlap | 默认情况下,文档会被拆分为有一定重叠度的块,以提高相关性和检索质量。默认块重叠为 256 个token。 | 
块越小意味着嵌入越精确。较大的块大小意味着嵌入可能更通用,但可能会错过特定细节。
例如,如果您将 1,000 个字词转换为原本用于 200 个字词的嵌入数组,可能会丢失细节。每个块的嵌入容量是固定的。大文本块可能无法放入小窗口模型中。
后续步骤
  
  
  
  
    
  
  
 
  
    
    
      
       
         
  
       
    
    
  
  
  如未另行说明,那么本页面中的内容已根据知识共享署名 4.0 许可获得了许可,并且代码示例已根据 Apache 2.0 许可获得了许可。有关详情,请参阅 Google 开发者网站政策。Java 是 Oracle 和/或其关联公司的注册商标。
  最后更新时间 (UTC):2025-10-19。
  
  
    
    
    
      
  
    
  
  
    
      [[["易于理解","easyToUnderstand","thumb-up"],["解决了我的问题","solvedMyProblem","thumb-up"],["其他","otherUp","thumb-up"]],[["很难理解","hardToUnderstand","thumb-down"],["信息或示例代码不正确","incorrectInformationOrSampleCode","thumb-down"],["没有我需要的信息/示例","missingTheInformationSamplesINeed","thumb-down"],["翻译问题","translationIssue","thumb-down"],["其他","otherDown","thumb-down"]],["最后更新时间 (UTC):2025-10-19。"],[],[]]