谷歌AI发布Android Bench:Android开发中LLMs的评估框架和排行榜
谷歌官方发布了Android Bench,这是一款新的排行榜和评估框架,旨在衡量大型语言模型(LLMs)在Android开发任务上的表现。数据集、方法和测试平台已开源,可在GitHub上公开获取Android Bench。
基准方法和任务设计
通用的编码基准通常无法捕捉移动开发的平台特定依赖和细微差别。Android Bench 通过直接从真实世界、公开的GitHub Android仓库中精选任务集来解决这个问题。
评估场景涵盖不同难度级别,包括:
- 处理不同Android版本间的破坏性更改。
- 针对特定领域的任务,例如Wear OS设备上的网络。
- 将代码迁移到最新的Jetpack Compose(Android的现代化工具包,用于构建原生用户界面)版本。
为了确保评估的无模型针对性,框架提示LLMs修复报告的问题,然后使用标准的开发者测试实践来验证修复:
- 单元测试:验证不需要Android框架的微小、孤立的代码块(如单个函数或类)的测试。
- 仪器化测试:在物理Android设备或模拟器上运行的测试,以验证代码如何与实际的Android系统和API交互。
减轻数据污染
对于正在评估公开基准的开发者来说,一个重大挑战是数据污染。这发生在LLM在训练过程中接触评估任务时,导致模型记住答案,而不是展示真正的推理和理解能力。
为确保Android Bench结果的完整性,谷歌团队实施了几项预防措施:
- 手动审查代理轨迹:开发者审查模型到达解决方案的逐步推理和行动路径,确保其正在主动解决问题。
- 引入金丝雀字符串:将一个唯一可识别的文本字符串嵌入到基准数据集中。这向AI公司的网页爬虫和数据抓取器发出信号,明确排除这些数据用于未来的模型训练运行。
初始Android Bench排行榜结果
在这次初始发布中,基准严格测量基础模型的性能,故意省略了复杂的代理工作流程或工具使用。
得分表示每个模型在10次独立运行中平均成功解决的100个测试案例的百分比。由于LLMs的输出之间存在差异,结果包括一个置信区间(CI),p值小于0.05。CI提供了预期的性能范围,表明模型得分的统计可靠性。
在这个首次发布中,模型成功完成了16%到72%的任务。
| 模型 | 得分 (%) | 置信区间 (%) | 日期 |
|---|---|---|---|
| Gemini 3.1 Pro Preview | 72.4 | 65.3 — 79.8 | 2026-03-04 |
| Claude Opus 4.6 | 66.6 | 58.9 — 73.9 | 2026-03-04 |
| GPT-5.2-Codex | 62.5 | 54.7 — 70.3 | 2026-03-04 |
| Claude Opus 4.5 | 61.9 | 53.9 — 69.6 | 2026-03-04 |
| Gemini 3 Pro Preview | 60.4 | 52.6 — 67.8 | 2026-03-04 |
| Claude Sonnet 4.6 | 58.4 | 51.1 — 66.6 | 2026-03-04 |
| Claude Sonnet 4.5 | 54.2 | 45.5 — 62.4 | 2026-03-04 |
| Gemini 3 Flash Preview | 42.0 | 36.3 — 47.9 | 2026-03-04 |
| Gemini 2.5 Flash | 16.1 | 10.9 — 21.9 | 2026-03-04 |
注意:您可以使用最新稳定版本的Android Studio中的API密钥为自己Android项目尝试所有评估过的模型。
主要收获
- 专业关注而非通用基准:Android Bench通过专门衡量LLMs如何处理Android生态系统的独特复杂性、API和依赖,解决了通用编码基准的不足。
- 基于真实世界场景:与孤立的算法测试不同,基准评估模型与从公开GitHub仓库中抽取的实际挑战一致。任务包括解决破坏性的API更改、将遗留的UI代码迁移到Jetpack Compose以及处理特定于设备的网络(例如Wear OS)。
- 可验证、无模型测试:代码生成基于功能,而非方法。框架自动使用标准的Android工程实践来验证LLM提出的修复方案:独立的单元测试和基于模拟器的仪器化测试。
- 严格的反污染措施:为了确保模型实际上是在推理而不是复述记忆中的训练数据,基准采用了对代理推理路径的手动审查,并使用“金丝雀字符串”来防止AI网页爬虫摄取测试数据集。
- 建立了基准性能:排行榜的第一个版本仅关注基础模型的性能,没有外部代理工具。Gemini 3.1 Pro Preview目前以72.4%的成功率领先,凸显了当前LLMs能力的广泛差异(测试模型的得分从16.1%到72.4%)。
有关更多信息,请查看 Repos和技术细节。也可以随时关注我们的Twitter,并且别忘了加入我们的120k+ 机器学习 SubReddit以及订阅我们的时事通讯。等等!你在Telegram上吗?现在你可以在Telegram上加入我们了。
这篇名为“谷歌AI发布Android Bench:Android开发中LLMs的评估框架和排行榜”的文章首次出现在MarkTechPost。