Finalrun Ai Verification

2026/04/09 共 1863 字,约 6 分钟

Finalrun:AI 开发工作流正在从写代码走向写完即验证

代码生成越来越快,谁来保证它是对的?

一个 2 人团队击败大厂的背后

2025 年 8 月,Android World 基准测试榜单刷新。

第一名不是阿里、字节、DeepSeek,而是一个 2 人创业公司 FinalRun——在真实 Android 任务场景中拿到了 76.7% 的得分,全球第一。

但这个排名不是重点。

重点是:FinalRun 证明了一件事——AI 可以在”测试”这个最怕出错的环节,做到既可靠又自主。

这才是真正的突破。

为什么”会验证”比”会写”更难?

AI 写代码已经很快了

Cursor、Claude Code、Devin……这些工具让一个开发者一天生成几千行代码变得稀松平常。

但问题来了:谁来判断这些代码是对的?

测试的三个技术难点

1. 幻觉问题

AI 测试 Agent 和普通 AI Agent 一样,会”幻觉”。

它可以生成一个测试流程,但你不知道:

  • 这个流程是否覆盖了边界情况?
  • 测试步骤是否真的能发现问题?
  • 生成的断言是否正确?

如果测试本身不可靠,开发者就不敢依赖。

2. 工具选择过载

2025 年的研究发现一个关键问题:当 Agent 有很多相似工具可选时,幻觉率会显著上升

一个测试 Agent 可能面对几十种操作:点击、滑动、输入、等待、截图……当这些操作的描述都塞进 prompt 里,模型就会”选择困难”,导致错误的工具调用。

3. 无法自我验证

单 Agent 有一个致命缺陷:它无法验证自己的输出是否正确

如果它生成了一个错误的测试流程,没有任何机制能发现这个错误。

FinalRun 怎么解决这些问题?

技术方案一:语义工具过滤

FinalRun(以及类似工具)的核心思路是:不要让模型看到所有工具

通过向量相似度,先把用户意图和工具描述做匹配,只传递最相关的工具给 Agent。

比如用户说”测试登录流程”,Agent 只看到:

  • 输入框定位
  • 按钮点击
  • 页面跳转验证

而不是全部 50+ 个工具。

效果:减少选择负担,降低幻觉率,同时节省 token。

技术方案二:符号规则约束

另一个关键思路:用硬规则约束 LLM 的行为边界

比如:

  • 不能调用不存在的元素
  • 不能跳过前置步骤
  • 参数类型必须匹配

这些规则用代码实现,LLM 无法绕过。

这叫 Neurosymbolic AI——神经网络的”灵活” + 符号系统的”确定”。

技术方案三:多 Agent 交叉验证

单 Agent 不能自我验证,那就用两个。

一个负责生成测试流程,另一个负责审查。审查 Agent 检查:

  • 步骤是否合理
  • 断言是否正确
  • 是否遗漏边界情况

这种方法能把幻觉率再降一个量级。

一个真实的工作流场景

假设你刚用 Cursor 写完一个用户注册功能。

传统流程

  1. 写完代码
  2. 手动测试几遍
  3. 提交给 QA
  4. QA 写测试脚本
  5. 发现问题,修复
  6. 回归测试
  7. 发布

周期:2-5 天

AI Agent 验证流程(我的实践)

第一层:单元测试自动化

用 AI 生成单元测试,覆盖核心逻辑。目前我的项目单元测试覆盖率稳定在 80%

这一层保证:函数级别没有低级错误。

第二层:Agent Browser 混沌验证

单元测试覆盖不了真实用户行为。比如:

  • 用户突然断网
  • 页面卡顿时的重复点击
  • 异常输入导致的边界情况

我用 Agent Browser 或 Chrome DevTools 做混沌功能验证——让 AI 随机探索应用,模拟真实用户的”胡乱操作”:随机点击、滚动、输入、断网……

这一层能发现:

  • 意外的 UI 崩溃
  • 状态管理漏洞
  • 边界情况 bug

周期:从天级缩短到小时级

这对开发者意味着什么?

1. 测试不再是”别人的事”

在 AI 辅助的时代,开发者可以自己快速验证代码质量,不用等 QA。

2. 选择工具时多一个维度

不要只看”生成代码的能力”,还要看:

  • 能否自动生成测试?
  • 测试是否可靠(没有幻觉)?
  • 能否自动运行并反馈问题?

3. 新的技能树

未来的开发者需要掌握:

  • 用 AI 生成代码
  • 用 AI 验证代码

“会写不会测”的时代正在过去。

写在最后

2025 年之前,AI 编程工具的主战场是”代码生成”。

2025 年之后,战场正在转向”代码验证”。

FinalRun 的突破不是孤例——Devin、Cursor、JetBrains AI 都在强化验证能力。

AI 开发工作流的下一站,不是更会写,而是更会验证。

写代码越来越快,验证能力才是新的护城河。


参考来源:

  • FinalRun Android World 基准测试数据
  • Research: Tool-calling hallucinations increase with tool count (Internal Representations, 2025)
  • Stop AI Agent Hallucinations: 4 Essential Techniques (dev.to, 2025)

文档信息

Search

    关注公众号

    翊行代码微信公众号

    Table of Contents

    京ICP备2021015985号-1