阿里巴巴团队开源CoPaw:一款性能卓越的个人代理工作站,开发者可用它扩展多通道AI工作流程和内存
随着该行业从简单的大语言模型(LLM)推理转向自主代理系统,开发者的挑战已经转移。不再是仅仅关于模型;而是关于模型运行的环境。由阿里巴巴的研究人员组成的一组研究人员发布了一个名为CoPaw的开源框架,旨在通过提供一个用于部署和管理个人人工智能代理的标准工作站来解决这一挑战。
CoPaw建立在由AgentScope、AgentScope Runtime和ReMe组成的技术堆栈之上。它作为高级代理逻辑与个人助理的实际需求(如持久记忆、多通道连接和任务调度)之间的桥梁。
架构:AgentScope和ReMe集成
CoPaw不是一个独立的聊天机器人,而是一个协调多个组件以创建一个统一的“代理应用”的工作站。
系统依赖于三个主要层:
- AgentScope:处理代理通信和逻辑的底层框架。
- AgentScope Runtime:确保稳定运行和资源管理的执行环境。
- ReMe(内存管理):一个专门处理本地和云存储内存的模块。这允许代理保持“长期经验”,解决了标准LLM API中固有的状态问题。
通过利用ReMe,CoPaw允许用户控制他们的数据隐私,同时确保代理在不同会话和平台之间保持上下文。这种持久记忆使工作站能够随着时间的推移适应用户的特定工作流程。
通过技能系统进行扩展
CoPaw工作站的核心功能是其技能扩展能力。在这个框架中,“技能”是一个离散的功能单元——本质上是一种代理可以调用来与外部世界交互的工具。
向CoPaw添加功能不需要修改核心引擎。相反,CoPaw支持一个自定义技能目录,其中工程师可以将基于Python的函数放入其中。这些技能遵循一个标准化的规范(受anthropics/skills的影响),允许代理:
- 执行网络抓取(例如,总结Reddit帖子或YouTube视频)。
- 与本地文件和桌面环境交互。
- 查询工作站内存储的个人知识库。
- 通过自然语言管理日历和电子邮件。
这种设计允许创建代理应用——复杂的流程,其中代理使用内置技能和计划任务组合来自主地实现目标。
多通道连接(全领域访问)
在个人AI中,跨碎片的通信平台部署是其中一个主要的技术难题。CoPaw通过其全领域访问层来解决这个问题,该层标准化了代理与不同消息协议的交互方式。
目前,CoPaw支持与以下平台的集成:
- 企业平台:钉钉和Lark(飞书)。
- 社交/开发者平台:Discord、QQ和iMessage。
这种多通道支持意味着开发者可以初始化一个CoPaw实例,并从任何这些端点与之交互。工作站处理消息在代理逻辑和特定通道API之间的转换,无论交互发生在哪里,都能保持一致的状态和内存。
主要成果
- 从模型转移到工作站:CoPaw将重点从仅仅的大语言模型(LLM)转向了一个结构化的工作站架构。它作为一个中间件层,协调AgentScope框架、AgentScope Runtime和外部通信渠道,将原始LLM能力转变成一个有功能且持久的助理。
- 通过ReMe实现长期记忆:与标准无状态LLM交互不同,CoPaw集成了ReMe(内存管理)模块。这允许代理通过在本地或云中存储用户偏好和过去任务数据来保持“长期经验”,使代理的行为随着时间的推移实现个性化发展。
- 基于Python的“技能”可扩展:该框架使用基于
anthropics/skills规范的解耦技能扩展系统。开发人员可以通过将Python函数添加到自定义技能目录中来扩展代理的用途,允许代理执行特定任务,如网络抓取、文件操作或API集成,而无需修改核心代码库。 - 多领域多通道访问:CoPaw提供了一个统一的接口,用于跨平台部署。单个工作站实例可以连接到企业工具(Lark、钉钉)和社交/开发者平台(Discord、QQ、iMessage),允许在不同环境中访问相同的代理及其内存。
- 自动代理工作流程:通过将计划任务与技能系统结合,CoPaw将 reactive chat 转变为 proactive automation。开发者可以编写“代理应用”,执行后台操作——如每日研究摘要或自动仓库监控——并将结果推送到用户的首选通信通道。
查看这里和网站。[在Twitter上关注我们]和别忘了加入我们的120k+机器学习SubReddit以及订阅我们的时事通讯。等等!你在Telegram上吗?现在您也可以加入我们的Telegram群组。
该帖子阿里巴巴团队开源CoPaw:为开发者提供高性能个人代理工作站,以扩展多渠道AI工作流程和内存首先出现在MarkTechPost。