苹果研究人员发布了CLaRa:一种针对压缩原生RAG的连续潜在推理框架,实现16x-128x语义文档压缩。
安爸
发布于
苹果和爱丁堡大学的研究团队推出了CLaRa(连续潜在推理),这是一种将文档压缩到连续记忆标记的检索增强生成框架,然后在共享的潜在空间中执行检索和生成。目标是缩短上下文,避免双重编码,并让生成器教授检索器下游答案中实际重要的内容。该框架在语义压缩和联合优化方面取得了重要进展,为RAG系统提供了一种统一且高效的解决方案。
- 文档压缩:CLaRa利用QA指导的语义压缩将原始文档压缩成一组连续的记忆标记,即使是在16倍和128倍的压缩情况下也能保留关键的推理信号。
- 联合检索和生成:检索和生成在单个共享的潜在空间中训练,查询编码器和生成器共享相同的压缩表示,并使用单一的语言建模损失进行优化。
- 连续潜在推理:通过可微分的top-k选择器,梯度可以从答案标记流回检索器,使文档的相关性与答案质量一致,消除了RAG系统中通常的分离调优循环。
- 性能表现:在多跳QA基准(如Natural Questions、HotpotQA、MuSiQue和2WikiMultihopQA)上,CLaRa在4倍压缩的情况下,其SCP压缩器优于基于文本的强基线(如LLMLingua 2和PISCO),甚至在平均F1上可以击败全文BGE/Mistral管道。
- 苹果的模型:苹果的研究团队发布了3个模型(CLaRa-7B-Base、CLaRa-7B-Instruct和CLaRa-7B-E2E),以及GitHub上的完整训练流程。
CLaRa将语义文档压缩和联合优化视为RAG系统中的重要组成部分,为RAG系统的发展提供了新的思路和方向。
扫描二维码,在手机上阅读