随着 GPT-4o 等长上下文语言模型(支持数万 Token 输入)的兴起,一个核心问题摆在 NLP 研究者面前:传统复杂的多阶段检索增强生成(RAG)管道,是否仍然必要?斯坦福大学的最新研究《Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models》给出了一个反直觉的答案:一种名为DOS RAG(Document’s Original Structure RAG) 的简单单阶段方法,在多个长上下文问答基准上,性能 consistently 超过或匹配 ReadAgent、RAPTOR 等复杂多阶段系统。
传统 RAG 系统为绕过早期 LM 的上下文限制,常采用抽象预处理、迭代摘要等复杂流程,却引入了计算开销。而 DOS RAG 的设计极其简洁:
- 检索 – 阅读一体化:沿用 Vanilla RAG 的检索逻辑(基于 Snowflake Arctic-embed-m 1.5 嵌入模型),但关键区别在于 —— 将检索到的文档块按原文顺序重新排列,而非按相似度排序。
- 保留叙事连续性:这种排序策略让 LM 能像阅读完整文档一样处理上下文,既过滤了无关内容,又避免了 Vanilla RAG 中碎片化排序导致的逻辑断层。
用论文作者的话来说:“当 LM 能直接处理长文本时,或许‘让文档自己说话’比强行摘要更有效。”
研究团队在三大长上下文问答基准上展开测试:
- ∞Bench(平均文档长度 184K Token):当 Token 预算超过 5K 时,DOS RAG 比 ReadAgent 和 RAPTOR 高出 2-8 个百分点,在 30K Token 时准确率达 93.1%。
- QuALITY(2K-8K Token 文档):全文档输入(Full-Document Baseline)性能最佳,但在 Token 受限场景下,DOS RAG 仍是检索方法中的最优解。
- NarrativeQA(平均 57K Token 故事):DOS RAG 以仅 1/3 的 Token 消耗,超越 ReadAgent,F1 分数提升显著。
更有趣的是,复杂方法如 ReadAgent 虽消耗 86K Token(远超 DOS RAG 的 30K),但性能反而更低,凸显了 “过度设计” 的边际效益递减。
- 原文检索优于摘要生成:直接检索原文避免了摘要过程中的信息丢失。实验显示,Vanilla RAG(无摘要)始终优于 RAPTOR(分层摘要)。
- 召回率优先于精确率:在 LM 有效上下文内(约 30K Token),尽可能多地包含相关内容比精准过滤更重要。全文档输入在短文档场景下的优势印证了这一点。
- 顺序即逻辑:文档原结构保留了叙事和论证的连贯性。打乱顺序的 Vanilla RAG 在长 Token 预算下性能显著低于 DOS RAG。
- 简单战胜复杂:多阶段管道的多次 LM 调用增加了延迟和成本,却未带来性能提升。在强 LM 支持下,“少即是多”。
- 基线选择的革新:建议将 DOS RAG 作为未来 RAG 研究的标准基线,便于公平比较复杂度与效果的权衡。
- 工程落地的考量:在实际应用中,DOS RAG 的简单性意味着更低的部署成本和更高的可解释性,尤其适合对延迟敏感的场景。
- LM 与检索的协同:随着 LM 上下文进一步扩展(如 100K Token),检索可能从 “信息过滤” 转向 “精准定位”,但原文结构的保留仍可能是关键。
当前研究仍有边界:
- 仅测试了单文档问答,多文档推理场景下复杂方法可能仍有优势;
- 未全面评估嵌入模型与 LM 的协同优化,未来可探索更先进的检索技术(如向量数据库与 LM 的联合训练)。
这篇论文揭示了一个重要趋势:长上下文 LM 正在重塑 RAG 的设计范式。当模型本身具备更强的上下文理解能力时,复杂的中间处理步骤可能不再必要。DOS RAG 的成功证明:在 NLP 领域,有时 “保持简单” 才是应对技术演进的最优解。