Finalrun:AI 开发工作流正在从写代码走向写完即验证
代码生成越来越快,谁来保证它是对的?
一个 2 人团队击败大厂的背后
2025 年 8 月,Android World 基准测试榜单刷新。
第一名不是阿里、字节、DeepSeek,而是一个 2 人创业公司 FinalRun——在真实 Android 任务场景中拿到了 76.7% 的得分,全球第一。
但这个排名不是重点。
重点是:FinalRun 证明了一件事——AI 可以在”测试”这个最怕出错的环节,做到既可靠又自主。
这才是真正的突破。
为什么”会验证”比”会写”更难?
AI 写代码已经很快了
Cursor、Claude Code、Devin……这些工具让一个开发者一天生成几千行代码变得稀松平常。
但问题来了:谁来判断这些代码是对的?
测试的三个技术难点
1. 幻觉问题
AI 测试 Agent 和普通 AI Agent 一样,会”幻觉”。
它可以生成一个测试流程,但你不知道:
- 这个流程是否覆盖了边界情况?
- 测试步骤是否真的能发现问题?
- 生成的断言是否正确?
如果测试本身不可靠,开发者就不敢依赖。
2. 工具选择过载
2025 年的研究发现一个关键问题:当 Agent 有很多相似工具可选时,幻觉率会显著上升。
一个测试 Agent 可能面对几十种操作:点击、滑动、输入、等待、截图……当这些操作的描述都塞进 prompt 里,模型就会”选择困难”,导致错误的工具调用。
3. 无法自我验证
单 Agent 有一个致命缺陷:它无法验证自己的输出是否正确。
如果它生成了一个错误的测试流程,没有任何机制能发现这个错误。
FinalRun 怎么解决这些问题?
技术方案一:语义工具过滤
FinalRun(以及类似工具)的核心思路是:不要让模型看到所有工具。
通过向量相似度,先把用户意图和工具描述做匹配,只传递最相关的工具给 Agent。
比如用户说”测试登录流程”,Agent 只看到:
- 输入框定位
- 按钮点击
- 页面跳转验证
而不是全部 50+ 个工具。
效果:减少选择负担,降低幻觉率,同时节省 token。
技术方案二:符号规则约束
另一个关键思路:用硬规则约束 LLM 的行为边界。
比如:
- 不能调用不存在的元素
- 不能跳过前置步骤
- 参数类型必须匹配
这些规则用代码实现,LLM 无法绕过。
这叫 Neurosymbolic AI——神经网络的”灵活” + 符号系统的”确定”。
技术方案三:多 Agent 交叉验证
单 Agent 不能自我验证,那就用两个。
一个负责生成测试流程,另一个负责审查。审查 Agent 检查:
- 步骤是否合理
- 断言是否正确
- 是否遗漏边界情况
这种方法能把幻觉率再降一个量级。
一个真实的工作流场景
假设你刚用 Cursor 写完一个用户注册功能。
传统流程
- 写完代码
- 手动测试几遍
- 提交给 QA
- QA 写测试脚本
- 发现问题,修复
- 回归测试
- 发布
周期:2-5 天
AI Agent 验证流程(我的实践)
第一层:单元测试自动化
用 AI 生成单元测试,覆盖核心逻辑。目前我的项目单元测试覆盖率稳定在 80%。
这一层保证:函数级别没有低级错误。
第二层:Agent Browser 混沌验证
单元测试覆盖不了真实用户行为。比如:
- 用户突然断网
- 页面卡顿时的重复点击
- 异常输入导致的边界情况
我用 Agent Browser 或 Chrome DevTools 做混沌功能验证——让 AI 随机探索应用,模拟真实用户的”胡乱操作”:随机点击、滚动、输入、断网……
这一层能发现:
- 意外的 UI 崩溃
- 状态管理漏洞
- 边界情况 bug
周期:从天级缩短到小时级
这对开发者意味着什么?
1. 测试不再是”别人的事”
在 AI 辅助的时代,开发者可以自己快速验证代码质量,不用等 QA。
2. 选择工具时多一个维度
不要只看”生成代码的能力”,还要看:
- 能否自动生成测试?
- 测试是否可靠(没有幻觉)?
- 能否自动运行并反馈问题?
3. 新的技能树
未来的开发者需要掌握:
- 用 AI 生成代码
- 用 AI 验证代码
“会写不会测”的时代正在过去。
写在最后
2025 年之前,AI 编程工具的主战场是”代码生成”。
2025 年之后,战场正在转向”代码验证”。
FinalRun 的突破不是孤例——Devin、Cursor、JetBrains AI 都在强化验证能力。
AI 开发工作流的下一站,不是更会写,而是更会验证。
写代码越来越快,验证能力才是新的护城河。
参考来源:
- FinalRun Android World 基准测试数据
- Research: Tool-calling hallucinations increase with tool count (Internal Representations, 2025)
- Stop AI Agent Hallucinations: 4 Essential Techniques (dev.to, 2025)
文档信息
- 本文作者:王翊仰
- 本文链接:https://www.wangyiyang.cc/2026/04/09/finalrun-ai-verification/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)