LangWatch开源了人工智能代理所缺失的评估层,以实现端到端的追踪、模拟和系统化测试。
随着人工智能的发展从简单的聊天界面转向复杂的、多步骤的自主代理,该行业遇到了一个显著的瓶颈:非确定性。与遵循可预测路径的传统软件不同,基于LLM构建的代理引入了高程度的不确定性。
LangWatch 是一个开源平台,旨在通过提供一个用于评估、跟踪、模拟和监控的标准层来解决这一问题。它将人工智能工程从基于事例的测试转向系统化、数据驱动的开发生命周期。
以模拟优先的方法来提高代理的可靠性
对于使用像 LangGraph 或 CrewAI 这样的框架的软件开发者来说,主要挑战是确定代理推理失败的地方。LangWatch 引入了端到端模拟,这些模拟超越了简单的输入输出检查。
通过运行全栈场景,该平台允许开发者观察几个关键组件之间的交互:
- 代理: 核心逻辑和工具调用能力。
- 用户模拟器: 一个自动化的角色,用于测试各种意图和边缘情况。
- 评委: 一个基于LLM的评估者,它将代理的决定与预定义的评估标准进行比较。
这种设置使开发者能够准确指出会导致失败的对话中的哪个“回合”或特定的工具调用,从而在生产部署前进行细粒度的调试。
闭合评估循环
人工智能工作流程中的常见摩擦点是所需在可观察性工具和微调数据集之间移动数据的“胶水代码”。LangWatch 将这些简化为单独的优化工作室。
迭代生命周期
该平台通过一个结构化的循环自动将原始执行转换为优化的提示:
| 阶段 | 操作 |
| --------- | candong shi kong Sierra isAh errorThrown T /*
| 跟踪 | 捕获完整的执行路径,包括状态变更和工具输出。 |
| 数据集 | 将特定的跟踪(特别是失败)转换为永久的测试案例。 |
| 评估 | 对数据集运行自动基准测试以衡量准确性和安全性。 |
| 优化 | 使用优化工作室对提示和模型参数进行迭代。 |
| 重新测试 | 验证更改解决了问题而没有引入回归。 |
这一过程确保每个提示的修改都有比较数据作为支持,而不是主观评估。
基础设施:OpenTelemetry原生和非框架依赖
为了避免供应商锁定,LangWatch 被构建为一个OpenTelemetry原生 (OTel) 平台。通过利用OTLP标准,它能够整合到现有的企业可观察性堆栈中,而无需专用SDK。
该平台设计为与当前的领先人工智能堆栈兼容:
- 编排框架: LangChain、LangGraph、CrewAI、Vercel AI SDK、Mastra、Google AI SDK。
- 模型提供者: OpenAI、Anthropic、Azure、AWS、Groq、Ollama。
通过保持非框架依赖,LangWatch 允许团队在保持一致的评估基础设施的同时更换底层模型(例如,从 GPT-4o 迁移到本地托管的 Llama 3 通过 Ollama)。
提示的GitOps和版本控制
对于开发者来说,更具实用性的功能是直接的GitHub集成。在许多工作流程中,提示被视为“配置”而不是“代码”,导致版本控制问题。LangWatch 将提示版本直接与其生成的跟踪相关联。
这允许一个GitOps工作流程:
- 提示在仓库中版本控制。
- LangWatch中的跟踪贴上特定的Git提交哈希标记。
- 工程师可以通过比较不同版本的跟踪来审计代码更改的性能影响。
企业就绪:部署和合规
对于有严格数据居住要求的企业组织,LangWatch 支持通过单个Docker Compose命令进行自我托管。这确保敏感的代理跟踪和专有数据集始终留在组织的虚拟专用云(VPC)中。
关键的企业规范包括:
- ISO 27001认证: 为受监管行业提供所需的安全基线。
- 模型上下文协议(MCP)支持: 允许与Claude Desktop进行完全集成以进行高级上下文处理。
- 批注和队列: 一个专用的界面,供领域专家手动标记边缘情况,弥合自动化评估和人类监督之间的差距。
结论
从“实验性人工智能”过渡到“生产性人工智能”需要将与传统软件开发相同的严谨程度应用于其中。通过提供用于跟踪和模拟的统一平台,LangWatch 为在规模层面验证代理工作流程提供了必要的基础设施。
请查看 GitHub代码库在此。
也可以跟随我们在 Twitter 上,并且别忘了加入我们的 12万+机器学习子Reddit 和订阅 我们的通讯。
等等!你在电报上吗?现在你可以在电报上也加入我们。
文章LangWatch开源用于AI代理的缺失评估层,以实现端到端跟踪、模拟和系统化测试 首先出现在 MarkTechPost。