斯坦福研究者推出了 OpenJarvis,这是一个用于构建完全在设备上运行的 个人AI代理的开源框架。该项目来自斯坦福的“扩大智能实验室”,并作为一个研究平台和本地first AI系统的部署就绪基础设施。其重点不仅在于模型执行,还包括让设备代理变得可使用、可测量和可随时间适应的更广泛的软件堆栈。 什么是OpenJarvis? 根据斯坦福研究团队的介绍,大多数...
热衷于专有前沿模型和高度透明开源模型之间的差距正在前所未有地快速缩小。NVIDIA正式揭开了Nemotron 3 Super的面纱,这是一个工程设计用于复杂多代理应用的120亿参数推理模型。 今天发布,Nemotron 3 Super完美地介于轻量级的30亿参数Nemotron 3 Nano和备受期待的500亿参数Nemotron 3 Ultra之间,该Ul...
自动驾驶AI代理的竞赛遇到了一个巨大的瓶颈:数据。尽管像Claude Code和Codex CLI这样的前沿模型在终端环境中的表现令人印象深刻,但它们的训练策略和数据混合方式一直是严格保密的。这种缺乏透明度迫使研究人员和开发者陷入代价高昂的尝试错误循环。 NVIDIA现在通过公布一个用于构建高性能终端代理的全面框架来打破这种沉默。通过引入终端任务生成器(Te...
“Copilot”时代的升级正式开始。尽管在过去的两年里,科技界都在逐渐适应AI在建议代码或草拟电子邮件方面的应用,但ByteDance团队正在转移目标。他们发布了DeerFlow 2.0,这是一个新的开源“超级代理”框架,它不仅提供工作建议,还能执行这些工作。DeerFlow旨在自主进行研究、编写代码、构建网站、制作演示文稿和生成视频内容。 沙盒:一个拥有...
在快速发展的代理工作流程世界中,最强大的AI模型仍然和它的文档一样出色。今天,Andrew Ng和他的DeepLearning.AI团队正式发布了上下文枢纽(Context Hub),这是一个开源工具,旨在弥合代理静态训练数据与现代API快速发展的现实之间的差距。 你要求像Claude Code这样的代理构建一个功能,但它可能想象出一个六个月前就已经过时的参...
谷歌官方发布了Android Bench,这是一款新的排行榜和评估框架,旨在衡量大型语言模型(LLMs)在Android开发任务上的表现。数据集、方法和测试平台已开源,可在GitHub上公开获取Android Bench。 基准方法和任务设计 通用的编码基准通常无法捕捉移动开发的平台特定依赖和细微差别。Android Bench 通过直接从真实世界、公开的G...
元实验室AI发布了Yuan3.0 Ultra,一个开源的专家混合(MoE)大型语言模型,总参数量为1T,激活参数量为68.8B。该模型架构旨在优化特定于企业的任务性能,同时保持有竞争力的通用能力。与传统的密集模型不同,Yuan3.0 Ultra利用稀疏化来扩展能力,而不需要线性增加计算成本。 层自适应专家剪枝(LAEP) Yuan3.0 Ultra训练中的主...
OpenAI推出了开源框架 Symphony,通过结构化的“实施运行”来管理自主AI编码代理。该项目通过将问题跟踪器与基于LLM的代理连接起来,为自动化软件开发任务提供了一个系统。 系统架构:Elixir和Erlang/BEAM Symphony使用Elixir和Erlang/BEAM运行时构建。选择此堆栈的重点在于容错性和并发性。由于自主代理通常执行长时间...
将 Google 工作空间 API(如 Drive、Gmail、Calendar 和 Sheets)集成到应用程序和数据管道通常需要编写模板代码来处理 REST 端点、分页和 OAuth 2.0 流。谷歌 AI 团队刚刚发布了一个 CLI 工具(gws)用于 Google 工作空间。开源的 googleworkspace/cli(通过 gws 命令调用)提供...
随着人工智能的发展从简单的聊天界面转向复杂的、多步骤的自主代理,该行业遇到了一个显著的瓶颈:非确定性。与遵循可预测路径的传统软件不同,基于LLM构建的代理引入了高程度的不确定性。 LangWatch 是一个开源平台,旨在通过提供一个用于评估、跟踪、模拟和监控的标准层来解决这一问题。它将人工智能工程从基于事例的测试转向系统化、数据驱动的开发生命周期。 以模拟优...