字节跳动推出 DeerFlow 2.0:一个开源超级代理调度器,可以协调子代理、内存和沙箱来完成复杂任务。
“Copilot”时代的升级正式开始。尽管在过去的两年里,科技界都在逐渐适应AI在建议代码或草拟电子邮件方面的应用,但ByteDance团队正在转移目标。他们发布了DeerFlow 2.0,这是一个新的开源“超级代理”框架,它不仅提供工作建议,还能执行这些工作。DeerFlow旨在自主进行研究、编写代码、构建网站、制作演示文稿和生成视频内容。
沙盒:一个拥有自己电脑的AI
DeerFlow的最大差异化优势在于其对执行方法的处理。大多数AI代理在文本框界面的限制下运行,向API发送查询,并返回一串文本。如果你想让这段代码运行,你——人类——必须复制、粘贴并调试它。
DeerFlow颠覆了这一模式。它在一个真实的、独立的Docker容器内运行。
对于软件开发人员来说,这意味着巨大的影响。这不是一个AI“产生幻觉”以为自己运行了脚本;而是拥有完整文件系统、bash终端和读写实际文件能力的代理。当你给DeerFlow分配任务时,它不仅可以建议一个用于分析CSV的Python脚本,还会启动环境、安装依赖项、执行代码,然后将生成的图表交给你。
通过为AI提供其自己的“电脑”,ByteDance团队解决了代理工作流程中最大的摩擦点之一:交接。因为它拥有有状态的内存和持久的文件系统,DeerFlow可以跨不同会话记住你的特定写作风格、项目结构和偏好。
多代理编排:分工、征服、聚合
DeerFlow的“魔法”在于其编排层。它利用了一个“超级代理”的 harness——一个充当项目经理的主要代理。
当一个复杂的提示被接收——比如,“研究2026年排名前十的AI初创企业,并为我制作一份全面的演示文稿”——DeerFlow并不会试图在一次线性思维过程中完成所有任务。相反,它采取任务分解的方式:
- 主要代理将提示分解成逻辑子任务。
- 子代理并行生成。一个可能处理用于资金数据的网页抓取,另一个可能进行竞争对手分析,第三个可能生成相关图片。
- 聚合:一旦子代理在其各自的沙箱中完成了任务,结果会反馈给主要代理。
- 最终交付:一个最终代理将数据编制成最终的交付成果,如演示文稿或完整的应用程序。
这种并行处理大大缩短了那些需要人类研究人员或开发者数小时才能综合的传统任务的交付时间。
从研究工具到全栈自动化
有趣的是,DeerFlow最初并非旨在如此庞大体量。它最初在ByteDance的生命周期中是一款专门的研究工具。然而,随着内部社区开始使用它,他们推动了其能力的边界。
用户开始利用其基于Docker的执行来构建自动化数据处理管道、启动实时仪表板,甚至从头创建全规模的Web应用程序。ByteDance认识到,社区需要的是一个执行引擎,而不仅仅是搜索工具,于是他们从头重新编写了这个框架。
结果是DeerFlow 2.0,这是一个多才多艺的框架,可以处理:
- 深度网络研究:在整个网络上收集引用的来源。
- 内容创作:生成包含集成图表、图片和视频的报告。
- 代码执行:在安全环境中运行Python脚本和bash命令。
- 资产生成:创建完整的演示文稿和UI组件。
关键要点
- 执行优先沙盒:与传统的AI代理不同,DeerFlow在一个隔离的基于Docker的沙盒中运行。这为代理提供了一个真正的文件系统、bash终端,并能够执行代码和运行命令,而不仅仅是建议。
- 分层多代理编排:框架使用一个“超级代理”作为项目经理来将复杂任务分解为子任务。它生成并行子代理来处理不同的组件——如数据抓取、生成图片或编写代码——然后将结果汇集到最终交付成果中。
- “超级代理”转型:最初是一款深度研究工具,DeerFlow 2.0被完全重写,成为了一种任务无关的 harness。现在,它可以构建全栈Web应用程序,生成专业的演示文稿,并自动处理复杂的数据管道。
- 完全模型无关性:DeerFlow被设计为LLM无关。它可以与任何OpenAI兼容的API集成,允许工程师在GPT-4、Claude 3.5、Gemini 1.5甚至本地模型之间进行切换,如通过DeepSeek和Ollama,而不必改变底层代理逻辑。
- 有状态内存和持久性:该代理拥有一个持久内存系统,跟踪用户偏好、写作风格和项目上下文,跨多个会话进行。这使得它能够作为长期“AI员工”而不是一次性的会话工具运行。
查看GitHub仓库。同时,欢迎关注我们的Twitter,别忘了加入我们的120k+ 机器学习SubReddit并订阅我们的 newsletters。等等!你是在telegram上吗?现在你还可以加入我们的telegram群组。
这篇文章字节跳动发布DeerFlow 2.0:一个开源的超级代理 harness,通过编排子代理、内存和沙盒来完成复杂任务首先出现在MarkTechPost。