长上下文 LLM 时代：简单基线 DOS RAG 如何挑战复杂多阶段 RAG 系统？

引言：当 LLM 能处理数万 Token，RAG 该如何进化？
一、RAG 的 “奥卡姆剃刀”：DOS RAG 的核心设计
二、实验验证：DOS RAG 如何碾压复杂方法？
三、DOS RAG 为何有效？四个关键洞察
四、对 RAG 实践的启示
五、局限与未来方向
结语：RAG 的 “极简主义” 革命

《Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models》论文地址：https://arxiv.org/pdf/2506.03989

https://github.com/alex-laitenberger/stronger-baselines-rag

引言：当 LLM 能处理数万 Token，RAG 该如何进化？

随着 GPT-4o 等长上下文语言模型（支持数万 Token 输入）的兴起，一个核心问题摆在 NLP 研究者面前：传统复杂的多阶段检索增强生成（RAG）管道，是否仍然必要？斯坦福大学的最新研究《Stronger Baselines for Retrieval-Augmented Generation with Long-Context Language Models》给出了一个反直觉的答案：一种名为DOS RAG（Document’s Original Structure RAG） 的简单单阶段方法，在多个长上下文问答基准上，性能 consistently 超过或匹配 ReadAgent、RAPTOR 等复杂多阶段系统。

一、RAG 的 “奥卡姆剃刀”：DOS RAG 的核心设计

传统 RAG 系统为绕过早期 LM 的上下文限制，常采用抽象预处理、迭代摘要等复杂流程，却引入了计算开销。而 DOS RAG 的设计极其简洁：

检索 – 阅读一体化：沿用 Vanilla RAG 的检索逻辑（基于 Snowflake Arctic-embed-m 1.5 嵌入模型），但关键区别在于 —— 将检索到的文档块按原文顺序重新排列，而非按相似度排序。
保留叙事连续性：这种排序策略让 LM 能像阅读完整文档一样处理上下文，既过滤了无关内容，又避免了 Vanilla RAG 中碎片化排序导致的逻辑断层。

用论文作者的话来说：“当 LM 能直接处理长文本时，或许‘让文档自己说话’比强行摘要更有效。”

二、实验验证：DOS RAG 如何碾压复杂方法？

研究团队在三大长上下文问答基准上展开测试：

∞Bench（平均文档长度 184K Token）：当 Token 预算超过 5K 时，DOS RAG 比 ReadAgent 和 RAPTOR 高出 2-8 个百分点，在 30K Token 时准确率达 93.1%。
QuALITY（2K-8K Token 文档）：全文档输入（Full-Document Baseline）性能最佳，但在 Token 受限场景下，DOS RAG 仍是检索方法中的最优解。
NarrativeQA（平均 57K Token 故事）：DOS RAG 以仅 1/3 的 Token 消耗，超越 ReadAgent，F1 分数提升显著。

更有趣的是，复杂方法如 ReadAgent 虽消耗 86K Token（远超 DOS RAG 的 30K），但性能反而更低，凸显了 “过度设计” 的边际效益递减。

三、DOS RAG 为何有效？四个关键洞察

原文检索优于摘要生成：直接检索原文避免了摘要过程中的信息丢失。实验显示，Vanilla RAG（无摘要）始终优于 RAPTOR（分层摘要）。
召回率优先于精确率：在 LM 有效上下文内（约 30K Token），尽可能多地包含相关内容比精准过滤更重要。全文档输入在短文档场景下的优势印证了这一点。
顺序即逻辑：文档原结构保留了叙事和论证的连贯性。打乱顺序的 Vanilla RAG 在长 Token 预算下性能显著低于 DOS RAG。
简单战胜复杂：多阶段管道的多次 LM 调用增加了延迟和成本，却未带来性能提升。在强 LM 支持下，“少即是多”。

四、对 RAG 实践的启示

基线选择的革新：建议将 DOS RAG 作为未来 RAG 研究的标准基线，便于公平比较复杂度与效果的权衡。
工程落地的考量：在实际应用中，DOS RAG 的简单性意味着更低的部署成本和更高的可解释性，尤其适合对延迟敏感的场景。
LM 与检索的协同：随着 LM 上下文进一步扩展（如 100K Token），检索可能从 “信息过滤” 转向 “精准定位”，但原文结构的保留仍可能是关键。

五、局限与未来方向

当前研究仍有边界：

仅测试了单文档问答，多文档推理场景下复杂方法可能仍有优势；
未全面评估嵌入模型与 LM 的协同优化，未来可探索更先进的检索技术（如向量数据库与 LM 的联合训练）。

结语：RAG 的 “极简主义” 革命

这篇论文揭示了一个重要趋势：长上下文 LM 正在重塑 RAG 的设计范式。当模型本身具备更强的上下文理解能力时，复杂的中间处理步骤可能不再必要。DOS RAG 的成功证明：在 NLP 领域，有时 “保持简单” 才是应对技术演进的最优解。

Heart.Think.Do