阿里巴巴的Qwen团队发布了Qwen3.5小型模型系列,这是一个包含从0.8B到9B参数的大型语言模型(LLM)集合。虽然行业趋势一直倾向于增加参数量来达到“前沿”性能,但这次发布的重点是“更智能,更少计算”。这些模型代表了一种趋势,即在不需要传统推理或多模态权衡的情况下,将功能强大的AI部署到消费级硬件和边缘设备上。系列目前在Hugging Face和Mo...
阿里巴巴发布了OpenSandbox,这是一款开源工具,旨在为AI代理提供安全、隔离的环境进行代码执行、网页浏览和模型训练。该项目采用Apache 2.0许可证发布,旨在标准化AI代理堆栈的“执行层”,提供一个统一的API,可以在各种编程语言和基础设施提供商之间运行。这个工具建立在阿里巴巴用于大规模AI工作负载的相同内部基础设施之上。 代理工作流中的技术差距...
随着该行业从简单的大语言模型(LLM)推理转向自主代理系统,开发者的挑战已经转移。不再是仅仅关于模型;而是关于模型运行的环境。由阿里巴巴的研究人员组成的一组研究人员发布了一个名为CoPaw的开源框架,旨在通过提供一个用于部署和管理个人人工智能代理的标准工作站来解决这一挑战。 CoPaw建立在由AgentScope、AgentScope Runtime和ReM...
本文教程中,我们使用开源指令模型构建了一个层次规划智能体。我们设计了一个包含规划智能体、执行智能体和聚合智能体的结构化多智能体架构,其中每个组件在解决复杂任务中承担专业角色。我们使用规划智能体将高级目标分解成可执行步骤,执行智能体使用推理或Python工具执行这些步骤,聚合智能体则将结果综合成一个连贯的最终响应。通过整合工具使用、结构化规划和迭代执行,我们创...
困惑度发布了一个名为pplx-embed的多语言嵌入模型集合,这些模型针对大规模检索任务进行了优化。这些模型旨在处理互联网规模数据的噪音和复杂性,提供了一个现成的替代私有嵌入API的解决方案。 架构创新:双向注意力与扩散 大多数大型语言模型(LLMs)都使用了因果、仅解码器架构。然而,对于嵌入任务来说,理解句子的完整上下文比预测下一个标记更为关键。困惑度研究...
在数字时代,权力平衡正在转变。虽然政府和大型企业长期以来一直利用数据追踪个人,但一个名为 OpenPlanter 的新开源项目将这种权力归还给了公众。该项目由一位名为“Shin Megami Boson”的开发者创建,是一个递归语言模型调查代理。它的目标很简单:帮助你监视你的政府,因为他们几乎肯定在监视你。 解决“异构数据”问题 调查工作很困难,因为数据很混...
NVIDIA发布Nemotron-Nano-3-30B-A3B-NVFP4,实现近似博格标准精度,同时保持接近BF16基线的准确度 NVIDIA已发布生产性检查点Nemotron-Nano-3-30B-A3B-NVFP4,该检查点以4位NVFP4格式运行30B参数推理模型,同时保持了与BF16基线接近的准确性。该模型结合了混合Mamba2 Transform...
谷歌推出Conductor,这是一个开源预览插件,适用于Gemini CLI,将AI代码生成转变为结构化、上下文驱动的流程。Conductor将产品知识、技术决策和工作计划以版本化的Markdown形式存储在仓库中,然后从这些文件中驱动Gemini代理,而不是从临时的聊天提示中。 从基于聊天的编码到上下文驱动开发 今天的AI编码大多是基于会话的。你将代码粘贴...
AI单元Robbyant位于蚂蚁集团内部,已开源LingBot-World,这是一个大规模世界模型,将视频生成转换成可交互的模拟器,适用于具身智能、自动驾驶和游戏。该系统旨在渲染可控制的、高视觉保真度、强动态和长时间前景的环境,同时保持足够的响应性,以实现实时控制。 从文本到视频到世界 大多数文生视频模型生成的是看似逼真但行为像被动电影的短片。它们没有模拟动...
DeepSeek AI发布了DeepSeek-OCR 2,这是一个开源的文档OCR和理解系统,其视觉编码器结构被重构为按照接近人类查看复杂文档的方式的因果顺序读取页面。其关键组件是DeepEncoder V2,这是一种类似于语言模型的Transformer,它将2D页面转换为1D的视觉令牌序列,在文本解码开始前,这些令牌序列已经遵循了学习到的阅读流程。 h...