Perplexity 刚刚发布了 pplx-embed:适用于Web规模检索任务的最新SOTA Qwen3 双向嵌入模型
困惑度发布了一个名为pplx-embed的多语言嵌入模型集合,这些模型针对大规模检索任务进行了优化。这些模型旨在处理互联网规模数据的噪音和复杂性,提供了一个现成的替代私有嵌入API的解决方案。
架构创新:双向注意力与扩散
大多数大型语言模型(LLMs)都使用了因果、仅解码器架构。然而,对于嵌入任务来说,理解句子的完整上下文比预测下一个标记更为关键。困惑度研究团队通过实施双向注意力来解决这个问题。这允许模型同时处理序列中的所有标记,从而产生更全面的隐藏状态表示。
此外,模型还采用了基于扩散的预训练。虽然扩散常用于生成媒体,但将其应用于文本嵌入有助于模型学习从嘈杂或碎片化的输入中重建干净的语义信号。这个预训练阶段确保模型在处理网络上经常发现的未格式化文本时具有鲁棒性。

https://arxiv.org/pdf/2602.11151
针对RAG:查询与上下文
检索增强生成(RAG)的一个常见挑战是用户简短的搜索查询和长文档块之间的“不对称”。困惑度团队通过提供两种特殊模型版本来解决这一问题:
- pplx-embed-v1:优化用于独立文本嵌入和搜索查询。
- pplx-embed-context-v1:特别调整用于在RAG管道中用作知识库的文档块。
通过分离这些角色,模型更好地实现了用户询问与数据库中存储的特定信息之间的向量空间之间的对齐。这些模型已在涉及数千万文档的现实世界搜索场景中得到了验证。
技术规范和效率
这些模型以两种参数规模提供,以平衡性能和计算成本:
| 特征 | 0.6B 模型 | 4B 模型 |
|---|---|---|
| 主要用途 | 高吞吐量、低延迟任务 | 复杂语义推理 |
| 量化 | 本地INT8支持 | 本地INT8支持 |
| 架构 | 基于Qwen3 | 基于Qwen3 |
| 注意力 | 双向 | 双向 |
本地INT8量化的引入允许工程师以显著更小的内存足迹和更快的推理速度部署这些模型。这使得4B模型适用于以前需要更小、功能更有限的模型的生产环境。
主要收获
- 通过扩散实现双向架构:与标准的仅解码器模型(如原始Qwen3)不同,困惑度团队将这些模型转换成了双向编码器,使用基于扩散的预训练。这使得模型能够一次“看见”整个句子的上下文,为嘈杂、互联网规模数据创建更准确的语义表示。
- 专门的RAG变种:此发布提供两个不同的模型来优化检索增强生成:
pplx-embed-v1针对独立查询和独立文本进行调整,而pplx-embed-context-v1特别设计用于文档块,确保用户询问与信息存储之间的对齐更加精确。 - 生产就绪效率:这些模型支持本地INT8和二进制量化,大大减少了存储和内存需求(二进制可降至最高32倍),同时精度损失不大。它们还利用马雅罗斯卡表示学习(MRL),允许开发者截断向量维度以节省成本,同时保持高性能。
查看论文、模型权重和技术细节。还可以免费关注我们的Twitter,别忘了加入我们的120k+ 机器学习 SubReddit并订阅我们的通讯。等一下!你在Telegram上吗?现在你可以在Telegram上加入我们了。
文章困惑度刚刚发布了pplx-embed:用于互联网规模检索任务的新顶级Qwen3双向嵌入模型首发于MarkTechPost。