阿里巴巴刚刚发布了Qwen 3.5小模型：一组专为设备端应用设计的，参数量在0.8B到9B之间的模型家庭。

阿里巴巴的Qwen团队发布了Qwen3.5小型模型系列，这是一个包含从0.8B到9B参数的大型语言模型（LLM）集合。虽然行业趋势一直倾向于增加参数量来达到“前沿”性能，但这次发布的重点是“更智能，更少计算”。这些模型代表了一种趋势，即在不需要传统推理或多模态权衡的情况下，将功能强大的AI部署到消费级硬件和边缘设备上。系列目前在Hugging Face和ModelScope上可用，包括指导和基础版本。

模型层次：按规模优化

Qwen3.5小型系列分为四个不同的级别，每个级别针对特定的硬件约束和延迟要求进行优化：

Qwen3.5-0.8B和Qwen3.5-2B： 这些模型是为边缘设备上的高吞吐量、低延迟应用设计的。通过优化密集token训练过程，这些模型提供了更小的VRAM占用，使它们可以与移动芯片和物联网硬件兼容。
Qwen3.5-4B： 这个模型作为轻量级代理的多模态基础。它在纯文本模型和复杂视觉语言模型（VLM）之间存在桥梁，允许需要视觉理解的代理工作流程，例如UI导航或文档分析，同时仍然足够小，可以进行本地部署。
Qwen3.5-9B： 小型系列的旗舰产品，9B变体的重点在于推理和逻辑。它通过先进的训练技术特别调整，以缩小与大得多（例如30B+参数变体）的模型之间的性能差距。

本机多模态与视觉适配器

Qwen3.5-4B及更高版本中的显著技术转变之一是向本机多模态功能的转变。在小模型的早期版本中，多模态通常是通过“适配器”或“桥梁”实现的，这些适配器将预训练的视觉编码器（如CLIP）连接到语言模型。

相比之下，Qwen3.5将多模态直接集成到架构中。这种方法允许模型在训练的早期阶段处理视觉和文本token，从而在空间推理、OCR准确性和视觉结合的响应上比基于适配器的系统表现得更好。

扩展强化学习：在紧凑型模型中增强推理

Qwen3.5-9B的性能主要归因于扩展强化学习（RL）的实施。与标准监督微调（SFT）不同，SFT通过模仿高质量文本来教模型，扩展RL使用奖励信号来优化正确的推理路径。

在9B模型中，扩展RL的好处包括：

改进指令遵守： 模型更有可能遵守复杂的多步系统提示。
减少幻觉： 通过在训练过程中强化逻辑一致性，模型在事实检索和数学推理方面表现出更高的可靠性。
推理效率： 9B参数数量允许比70B模型更快地生成token（每秒更多token），同时在MMLU和GSM8K等基准测试上保持有竞争力的逻辑分数。

Qwen3.5小型系列规格总结表

模型大小	主要用途案例	关键技术特性
0.8B / 2B	边缘设备 / 物联网	低VRAM，高速度推理
4B	轻量级代理	本地多模态集成
9B	推理 & 逻辑	扩展RL以缩小性能差距

通过关注架构效率以及扩展RL和本机多模态等先进训练方法，Qwen3.5系列为开发者提供了一条在不需要大规模、云依赖的模型的情况下构建复杂AI应用的可行路径。

关键要点

更智能，更少计算： 系列从0.8B到9B参数，侧重于架构效率而不是原始的参数规模，使得高端AI能够在消费级硬件和边缘设备上运行。
本机多模态集成（4B模型）： 与使用“外挂”视觉塔楼的模型不同，4B变体具有本机架构，其中文本和视觉数据在训练的早期阶段都在统一的潜在空间中处理，极大地改善了空间推理和OCR准确率。
通过扩展RL实现前沿级的推理： 9B模型利用扩展强化学习来优化逻辑推理路径，而不是仅仅进行token预测，有效地缩小了与比其大5倍到10倍的模型之间的性能差距。
针对边缘和物联网优化： 0.8B和2B模型是为超低延迟和最小VRAM占用开发的，非常适合本地优先应用、移动部署和隐私敏感的环境。

查看模型权重。也请关注我们的Twitter，并加入我们的120k+机器学习SubReddit和我们的时事通讯。等等！你在Telegram上吗？现在你可以加入我们了。

文章【阿里巴巴刚刚发布了Qwen 3.5小型模型：从0.8B到9B参数，专为设备应用构建的系列模型】首先出现在MarkTechPost。