谷歌AI发布Android Bench：Android开发中LLMs的评估框架和排行榜

谷歌官方发布了Android Bench，这是一款新的排行榜和评估框架，旨在衡量大型语言模型（LLMs）在Android开发任务上的表现。数据集、方法和测试平台已开源，可在GitHub上公开获取Android Bench。

通用的编码基准通常无法捕捉移动开发的平台特定依赖和细微差别。Android Bench 通过直接从真实世界、公开的GitHub Android仓库中精选任务集来解决这个问题。

评估场景涵盖不同难度级别，包括：

为了确保评估的无模型针对性，框架提示LLMs修复报告的问题，然后使用标准的开发者测试实践来验证修复：

对于正在评估公开基准的开发者来说，一个重大挑战是数据污染。这发生在LLM在训练过程中接触评估任务时，导致模型记住答案，而不是展示真正的推理和理解能力。

为确保Android Bench结果的完整性，谷歌团队实施了几项预防措施：

在这次初始发布中，基准严格测量基础模型的性能，故意省略了复杂的代理工作流程或工具使用。

得分表示每个模型在10次独立运行中平均成功解决的100个测试案例的百分比。由于LLMs的输出之间存在差异，结果包括一个置信区间（CI），p值小于0.05。CI提供了预期的性能范围，表明模型得分的统计可靠性。

在这个首次发布中，模型成功完成了16%到72%的任务。

模型	得分 (%)	置信区间 (%)	日期
Gemini 3.1 Pro Preview	72.4	65.3 — 79.8	2026-03-04
Claude Opus 4.6	66.6	58.9 — 73.9	2026-03-04
GPT-5.2-Codex	62.5	54.7 — 70.3	2026-03-04
Claude Opus 4.5	61.9	53.9 — 69.6	2026-03-04
Gemini 3 Pro Preview	60.4	52.6 — 67.8	2026-03-04
Claude Sonnet 4.6	58.4	51.1 — 66.6	2026-03-04
Claude Sonnet 4.5	54.2	45.5 — 62.4	2026-03-04
Gemini 3 Flash Preview	42.0	36.3 — 47.9	2026-03-04
Gemini 2.5 Flash	16.1	10.9 — 21.9	2026-03-04

注意：您可以使用最新稳定版本的Android Studio中的API密钥为自己Android项目尝试所有评估过的模型。

专业关注而非通用基准：Android Bench通过专门衡量LLMs如何处理Android生态系统的独特复杂性、API和依赖，解决了通用编码基准的不足。
基于真实世界场景：与孤立的算法测试不同，基准评估模型与从公开GitHub仓库中抽取的实际挑战一致。任务包括解决破坏性的API更改、将遗留的UI代码迁移到Jetpack Compose以及处理特定于设备的网络（例如Wear OS）。
可验证、无模型测试：代码生成基于功能，而非方法。框架自动使用标准的Android工程实践来验证LLM提出的修复方案：独立的单元测试和基于模拟器的仪器化测试。
严格的反污染措施：为了确保模型实际上是在推理而不是复述记忆中的训练数据，基准采用了对代理推理路径的手动审查，并使用“金丝雀字符串”来防止AI网页爬虫摄取测试数据集。
建立了基准性能：排行榜的第一个版本仅关注基础模型的性能，没有外部代理工具。Gemini 3.1 Pro Preview目前以72.4%的成功率领先，凸显了当前LLMs能力的广泛差异（测试模型的得分从16.1%到72.4%）。

有关更多信息，请查看 Repos和技术细节。也可以随时关注我们的Twitter，并且别忘了加入我们的120k+ 机器学习 SubReddit以及订阅我们的时事通讯。等等！你在Telegram上吗？现在你可以在Telegram上加入我们了。