安爸-超级家庭

阿布扎比的TII发布猎鹰H1R-7B:一个拥有7B参数和256k上下文窗口的新推理模型,在数学和编码方面优于其他模型。

安爸 发布于

阿布扎比的科技创新研究所(TII)发布了一款名为Falcon-H1R-7B的7B参数推理专用模型,在数学、代码和通用基准测试中与14B到47B推理模型相匹配甚至更好,同时保持紧凑和高效。该模型基于Falcon H1 7B基础版,可在Hugging Face的Falcon-H1R系列下使用。

Falcon-H1R-7B之所以引人注目,是因为它将3个设计选择结合在一个系统中:混合Transformer加Mamba2骨干架构、非常长的上下文(在标准vLLM部署中达到256k个标记),以及混合监督长形式推理和GRPO增强学习的训练方案。

混合Transformer加Mamba2架构与长上下文

Falcon-H1R-7B是一个因果解码器模型,具有混合架构,结合了Transformer层和Mamba2状态空间组件。Transformer块提供了基于标准注意力的推理,而Mamba2块则提供线性时间序列建模,并随着上下文长度的增加提供了更好的内存扩展。这种设计旨在提高团队描述的推理效率的三个轴:速度、标记效率和精度。

当通过vLLM提供服务时,模型以默认的--max-model-len 262144运行,这对应于一个实际的256k标记上下文窗口。这允许非常长的思维链痕迹、多步工具使用日志和单个行程中的大型多文档提示。混合骨干架构有助于控制这些序列长度下的内存使用,并比同一硬件上的纯7B Transformer基线提高了吞吐量。

推理吞吐量和测试时间扩展

团队还在实际的批量设置下对Falcon-H1R-7B的吞吐量和测试时间扩展进行了基准测试。

对于512个标记输入和32k标记输出,Falcon-H1R-7B在批量大小为32时达到约每颗GPU每秒1000个标记,在批量大小为64时达到约每颗GPU每秒1500个标记,几乎是同一配置下Qwen3-8B吞吐量的两倍。对于8k输入和16k输出,Falcon-H1R-7B达到约每颗GPU每秒1800个标记,而Qwen3-8B则低于每秒900个标记。混合Transformer和Mamba架构是这种扩展行为的关键因素,因为它减少了长序列的二次注意力成本。

Falcon-H1R-7B也被设计为使用DeepThink进行测试时间扩展,这种方法称为DeepConf。想法是并行运行许多思维链,然后使用模型自身的下一个标记置信度分数来过滤噪声痕迹,并仅保留高质量候选项。

在AIME 24和AIME 25上,Falcon-H1R-7B在生成不到1亿个标记的情况下达到了96.7%的准确率,这使它在与其他8B、14B和32B推理模型的准确率/标记成本比的有利Paret前沿上。

主要结论

  • Falcon-H1R-7B是一个7B参数推理模型,它使用混合Transformer加Mamba2架构,支持256k标记的上下文,适用于长思维链提示。
  • 模型经过两阶段训练:在数学、代码和科学中的长推理痕迹上进行监督微调,直至48k个标记,然后进行基于GRPO的强化学习,对数学和代码进行验证性奖励。
  • Falcon-H1R-7B在数学方面的表现强劲,包括AIME 24大约88.1%,AIME 25大约83.1%,以及73.96%的数学聚合分数,与14B到47B的大型模型竞争力或更好。
  • 在编码和有效负载任务中,Falcon-H1R-7B以33.95%的组分数获得平均分数,在LiveCodeBench v6上获得68.6%的分数,并且在对MMLU Pro和GPQA D等通用推理基准测试中也表现出竞争力。
  • 混合设计提高了吞吐量,在报告的设置下,每秒每GPU可达1000到1800个标记,并通过DeepThink的信心测试支持测试时间扩展,在受控的标记预算下使用多个推理样本提高精度。

详细了解技术细节模型权重。请在Twitter上关注我们,不要忘记加入我们的10万+ 机器学习SubReddit并订阅我们的时事通讯。等等!你在Telegram上吗?现在您可以加入我们的Telegram群组

了解我们的最新发布ai2025.dev,这是一个面向2025年的分析平台,可以将模型发布、基准测试和生态系统活动转化为结构化数据集,您可以根据需要筛选、比较和导出。

阿布扎比的TII发布了Falcon H1R-7B:一个仅用7B参数在数学和编码方面击败其他模型的推理模型,拥有256k上下文窗口这篇文章最初发表在MarkTechPost


扫描二维码,在手机上阅读