Finalrun：AI 开发工作流正在从写代码走向写完即验证

代码生成越来越快，谁来保证它是对的？

一个 2 人团队击败大厂的背后

2025 年 8 月，Android World 基准测试榜单刷新。

第一名不是阿里、字节、DeepSeek，而是一个 2 人创业公司 FinalRun——在真实 Android 任务场景中拿到了 76.7% 的得分，全球第一。

但这个排名不是重点。

重点是：FinalRun 证明了一件事——AI 可以在”测试”这个最怕出错的环节，做到既可靠又自主。

这才是真正的突破。

为什么”会验证”比”会写”更难？

AI 写代码已经很快了

Cursor、Claude Code、Devin……这些工具让一个开发者一天生成几千行代码变得稀松平常。

但问题来了：谁来判断这些代码是对的？

测试的三个技术难点

1. 幻觉问题

AI 测试 Agent 和普通 AI Agent 一样，会”幻觉”。

它可以生成一个测试流程，但你不知道：

这个流程是否覆盖了边界情况？
测试步骤是否真的能发现问题？
生成的断言是否正确？

如果测试本身不可靠，开发者就不敢依赖。

2. 工具选择过载

2025 年的研究发现一个关键问题：当 Agent 有很多相似工具可选时，幻觉率会显著上升。

一个测试 Agent 可能面对几十种操作：点击、滑动、输入、等待、截图……当这些操作的描述都塞进 prompt 里，模型就会”选择困难”，导致错误的工具调用。

3. 无法自我验证

单 Agent 有一个致命缺陷：它无法验证自己的输出是否正确。

如果它生成了一个错误的测试流程，没有任何机制能发现这个错误。

FinalRun 怎么解决这些问题？

技术方案一：语义工具过滤

FinalRun（以及类似工具）的核心思路是：不要让模型看到所有工具。

通过向量相似度，先把用户意图和工具描述做匹配，只传递最相关的工具给 Agent。

比如用户说”测试登录流程”，Agent 只看到：

输入框定位
按钮点击
页面跳转验证

而不是全部 50+ 个工具。

效果：减少选择负担，降低幻觉率，同时节省 token。

技术方案二：符号规则约束

另一个关键思路：用硬规则约束 LLM 的行为边界。

比如：

不能调用不存在的元素
不能跳过前置步骤
参数类型必须匹配

这些规则用代码实现，LLM 无法绕过。

这叫 Neurosymbolic AI——神经网络的”灵活” + 符号系统的”确定”。

技术方案三：多 Agent 交叉验证

单 Agent 不能自我验证，那就用两个。

一个负责生成测试流程，另一个负责审查。审查 Agent 检查：

步骤是否合理
断言是否正确
是否遗漏边界情况

这种方法能把幻觉率再降一个量级。

一个真实的工作流场景

假设你刚用 Cursor 写完一个用户注册功能。

传统流程

写完代码
手动测试几遍
提交给 QA
QA 写测试脚本
发现问题，修复
回归测试
发布

周期：2-5 天

AI Agent 验证流程（我的实践）

第一层：单元测试自动化

用 AI 生成单元测试，覆盖核心逻辑。目前我的项目单元测试覆盖率稳定在 80%。

这一层保证：函数级别没有低级错误。

第二层：Agent Browser 混沌验证

单元测试覆盖不了真实用户行为。比如：

用户突然断网
页面卡顿时的重复点击
异常输入导致的边界情况

我用 Agent Browser 或 Chrome DevTools 做混沌功能验证——让 AI 随机探索应用，模拟真实用户的”胡乱操作”：随机点击、滚动、输入、断网……

这一层能发现：

意外的 UI 崩溃
状态管理漏洞
边界情况 bug

周期：从天级缩短到小时级

这对开发者意味着什么？

1. 测试不再是”别人的事”

在 AI 辅助的时代，开发者可以自己快速验证代码质量，不用等 QA。

2. 选择工具时多一个维度

不要只看”生成代码的能力”，还要看：

能否自动生成测试？
测试是否可靠（没有幻觉）？
能否自动运行并反馈问题？

3. 新的技能树

未来的开发者需要掌握：

用 AI 生成代码
用 AI 验证代码

“会写不会测”的时代正在过去。

写在最后

2025 年之前，AI 编程工具的主战场是”代码生成”。

2025 年之后，战场正在转向”代码验证”。

FinalRun 的突破不是孤例——Devin、Cursor、JetBrains AI 都在强化验证能力。

AI 开发工作流的下一站，不是更会写，而是更会验证。

写代码越来越快，验证能力才是新的护城河。

参考来源：

FinalRun Android World 基准测试数据
Research: Tool-calling hallucinations increase with tool count (Internal Representations, 2025)
Stop AI Agent Hallucinations: 4 Essential Techniques (dev.to, 2025)

文档信息

本文作者：王翊仰
本文链接：https://www.wangyiyang.cc/2026/04/09/finalrun-ai-verification/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

翊行代码

Finalrun Ai Verification