艾伦人工智能研究所(AI2)研究人员介绍了SERA(软验证高效存储库代理),这是一个以仅使用监督培训和合成轨迹匹配更大封闭系统的代码代理家族。 什么是SERA? SERA是AI2开放编码代理系列的首个发布。旗舰模型SERA-32B基于Qwen 3 32B架构,作为存储库级别的代码代理进行训练。 在32K上下文的SWE bench 验证中,SERA-32B达到...
Google DeepMind正在将其生物工具包扩展到蛋白质折叠世界之外。在AlphaFold取得成功之后,谷歌的研究团队推出了AlphaGenome。这是一个针对序列到功能基因组学设计的统一深度学习模型。这代表着我们在模拟人类基因组方面的重大转变。AlphaGenome不将DNA视为简单的文本。相反,它处理100万个碱基对窗口的原始DNA来预测细胞的功能状...
如何构建一个单一视觉语言动作模型,使其能够在现实世界中控制多种不同的双臂机器人?LingBot-VLA是蚂蚁集团Robbyant公司的新视觉语言动作基础模型,旨在用于现实世界的机器人操作。它是在大约20,000小时的远程操控双臂数据集上训练的,这个数据集是从9种双臂机器人实体中收集的,并在大规模GM-100基准测试中的3个平台上进行了评估。该模型旨在实现跨形...
腾讯混元开源了HPC-Ops,这是一个用于大型语言模型推理架构设备的生产级操作库。HPC-Ops专注于核心操作员(如Attention、分组GEMM和Fused MoE)的低级CUDA核,并通过紧凑的C和Python API将其暴露出来,以便集成到现有的推理堆栈中。 HPC-Ops在大规模内部服务中运行。在这些部署中,它为腾讯-HY模型提供了约30%的每分钟...
K2 Think V2,是一款完全独立的推理模型,旨在评估开放和完全文档化的流程将数学、代码和科学领域长期推理推得有多远。当整个堆栈都是开放和可复制的时,K2 Think V2从70亿参数的K2 V2 Instruct基础模型出发,采用了精心设计的强化学习方法,将其转变为一个精确的推理模型,其在权重和数据上均保持完全开放。 https://arxiv.or...
科学数据代理应该检查数据集、设计工作流程、运行代码并返回可验证的答案,而不仅仅是自动完成Pandas代码。由斯坦福大学、Together AI、杜克大学和哈佛大学的研究者共同推出的DSGym是一个框架,该框架通过具有专家精心编辑的地面真值和一致的培训后管道,在超过1000个数据科学挑战中评估和训练这样的代理。 https://arxiv.org/pdf/2...
Moonshot AI 已将 Kimi K2.5 作为开源视觉智能代理模型发布。它结合了一个大型混合专家语言骨干、一个原生视觉编码器以及一个名为 Agent Swarm 的并行多代理系统。该模型针对编码、多模态推理和深度网络研究,在智能、视觉和编码套件上有强大的基准结果。 模型架构和训练 Kimi K2.5 是一个混合专家模型,拥有 1T 总参数,每个标记约...
Clawdbot 是一个开源的个人AI助理,您可以在自己的硬件上运行它。它将Anthropic和OpenAI等提供商的大型语言模型连接到真正的工具,如通讯应用、文件、shell、浏览器和智能家居设备,同时将协奏层控制在您的掌控之下。 有趣的部分不在于Clawdbot 会聊天。而是在于该项目为本地优先代理提供了具体的架构,以及一个名为Lobster的打字工作...
Chroma 1.0是一种实时语音到语音对话模型,它将音频作为输入并返回音频作为输出,在多轮对话中保留说话人的身份。它被呈现为首个开源的端到端说话人对话系统,该系统结合了低延迟交互和仅从几秒钟的参考音频中实现的碩效个性化声音克隆。 该模型直接在离散的语音表示上运行,而不是在文本记录上。它与商业实时代理具有相同的目标用例,但具有紧凑的4B参数对话核心和将说话人...
微软研究所以及什么样的输出? OptiMind-SFT 是 gpt oss transformer 系列中的一种面向专家的 20B 参数混合专家模型。每个标记大约有 3.6B 个参数是活跃的,因此推理成本接近中等模型,同时保持高容量。上下文长度为 128,000 个标记,这使得单个请求中可以包含长规格和多步骤推理轨迹。 模型将优化问题以自然语言描述作为输入。...