阿里巴巴刚刚发布了Qwen 3.5小模型:一组专为设备端应用设计的,参数量在0.8B到9B之间的模型家庭。
阿里巴巴的Qwen团队发布了Qwen3.5小型模型系列,这是一个包含从0.8B到9B参数的大型语言模型(LLM)集合。虽然行业趋势一直倾向于增加参数量来达到“前沿”性能,但这次发布的重点是“更智能,更少计算”。这些模型代表了一种趋势,即在不需要传统推理或多模态权衡的情况下,将功能强大的AI部署到消费级硬件和边缘设备上。系列目前在Hugging Face和ModelScope上可用,包括指导和基础版本。
模型层次:按规模优化
Qwen3.5小型系列分为四个不同的级别,每个级别针对特定的硬件约束和延迟要求进行优化:
- Qwen3.5-0.8B和Qwen3.5-2B: 这些模型是为边缘设备上的高吞吐量、低延迟应用设计的。通过优化密集token训练过程,这些模型提供了更小的VRAM占用,使它们可以与移动芯片和物联网硬件兼容。
- Qwen3.5-4B: 这个模型作为轻量级代理的多模态基础。它在纯文本模型和复杂视觉语言模型(VLM)之间存在桥梁,允许需要视觉理解的代理工作流程,例如UI导航或文档分析,同时仍然足够小,可以进行本地部署。
- Qwen3.5-9B: 小型系列的旗舰产品,9B变体的重点在于推理和逻辑。它通过先进的训练技术特别调整,以缩小与大得多(例如30B+参数变体)的模型之间的性能差距。
本机多模态与视觉适配器
Qwen3.5-4B及更高版本中的显著技术转变之一是向本机多模态功能的转变。在小模型的早期版本中,多模态通常是通过“适配器”或“桥梁”实现的,这些适配器将预训练的视觉编码器(如CLIP)连接到语言模型。
相比之下,Qwen3.5将多模态直接集成到架构中。这种方法允许模型在训练的早期阶段处理视觉和文本token,从而在空间推理、OCR准确性和视觉结合的响应上比基于适配器的系统表现得更好。
扩展强化学习:在紧凑型模型中增强推理
Qwen3.5-9B的性能主要归因于扩展 强化学习(RL)的实施。与标准监督微调(SFT)不同,SFT通过模仿高质量文本来教模型,扩展RL使用奖励信号来优化正确的推理路径。
在9B模型中,扩展RL的好处包括:
- 改进指令遵守: 模型更有可能遵守复杂的多步系统提示。
- 减少幻觉: 通过在训练过程中强化逻辑一致性,模型在事实检索和数学推理方面表现出更高的可靠性。
- 推理效率: 9B参数数量允许比70B模型更快地生成token(每秒更多token),同时在MMLU和GSM8K等基准测试上保持有竞争力的逻辑分数。
Qwen3.5小型系列规格总结表
| 模型大小 | 主要用途案例 | 关键技术特性 |
|---|---|---|
| 0.8B / 2B | 边缘设备 / 物联网 | 低VRAM,高速度推理 |
| 4B | 轻量级代理 | 本地多模态集成 |
| 9B | 推理 & 逻辑 | 扩展RL以缩小性能差距 |
通过关注架构效率以及扩展RL和本机多模态等先进训练方法,Qwen3.5系列为开发者提供了一条在不需要大规模、云依赖的模型的情况下构建复杂AI应用的可行路径。
关键要点
- 更智能,更少计算: 系列从0.8B到9B参数,侧重于架构效率而不是原始的参数规模,使得高端AI能够在消费级硬件和边缘设备上运行。
- 本机多模态集成(4B模型): 与使用“外挂”视觉塔楼的模型不同,4B变体具有本机架构,其中文本和视觉数据在训练的早期阶段都在统一的潜在空间中处理,极大地改善了空间推理和OCR准确率。
- 通过扩展RL实现前沿级的推理: 9B模型利用扩展强化学习来优化逻辑推理路径,而不是仅仅进行token预测,有效地缩小了与比其大5倍到10倍的模型之间的性能差距。
- 针对边缘和物联网优化: 0.8B和2B模型是为超低延迟和最小VRAM占用开发的,非常适合本地优先应用、移动部署和隐私敏感的环境。
查看模型权重。也请关注我们的Twitter,并加入我们的120k+机器学习SubReddit和我们的时事通讯。等等!你在Telegram上吗?现在你可以加入我们了。
文章【阿里巴巴刚刚发布了Qwen 3.5小型模型:从0.8B到9B参数,专为设备应用构建的系列模型】首先出现在MarkTechPost。