或许是 Harness——我从 Opus 换到了 Flash

从 Opus 到 Flash，日成本从 50 砍到 10，活干得更多了

💡 前阵子，我 Vibe Coding 光中转站一天就要 50 上下；这两天换完模型、把 Kimi 摊进去，一天 all-in 也就 10 块。中间我几乎没动一行业务代码，只做了一件事——把主力模型从 Claude Opus 4.8 一路换到了 DeepSeek V4 Flash。按常理，这该翻车。结果不光没翻，反而更快了，一天能处理的事还更多。

后来复盘，我才回过味来——真正救我的，可能不是「换了个便宜模型」，而是我平时那套工程习惯里能自动兜底的那部分：它在我没察觉时，早就长成了一套给 AI 用的 Harness。但这话先按下，我从头讲。

起因：两条退路同时断了

事情的开头其实挺狼狈。我平时跑 Vibe Coding，手里本来有两条路：一条是包月的 Kimi Allegretto，按周给配额，我通常先把它用满；另一条是一个 API 中转站，配合 GPT、Claude 兜底。

偏偏这俩同时出了岔子：Kimi 这周的配额提前见了底，而那个中转站的费用又一夜翻了三倍多——之前一天也就 50（官方 0.3 倍，汇率 1:1）出头，那几天直接顶上去。两头一挤，肉眼可见地扛不住。

我没工夫纠结，只能赶紧找个又便宜又顶用的替代。但心里也打鼓：便宜模型要是把活儿干砸了，省下的那点钱根本不够擦屁股。

第一天：换上 DeepSeek V4 Pro

我先换了 DeepSeek V4 Pro，做好了「也许得忍它笨一点」的心理准备。

结果出乎意料：那一天我处理了 16 个 PR，明显比之前用 Opus 那阵更快，一天能往前推的事情也更多；按量付费还比中转站省了一截。

回过头想，能这么顺，多半不是 Pro 有多神，而是我这个项目的底子还行——文档、目录约定、代码范式都立着，模型不用猜我想干嘛，照着既有的样子往下写就行。

第二天（今天）：再往下试 V4 Flash

尝到甜头，今天我又往更便宜的 V4 Flash 上探。

这次主要让它干两类活：E2E 测试和问题修复。截至此刻处理了差不多 10 个 PR，效果依旧能打。关键在于——因为验证和单元测试做得比较到位，它即便偶尔写歪，也会被测试当场挡回去，没出什么乱子。

费用呢？比 Pro 那天还低——DeepSeek 按量没几个钱，再把包月的 Kimi 摊进去，今天一天 all-in 也就 10 块上下。

不过有一点得说实话：今天并不是「纯 Flash」。遇到一些我怕它拿不准的需求，我还是先让 V4 Pro 出 Plan（把需求拆开、把方案定下来），再把执行丢给 Flash。这套「Pro 想、Flash 做」的搭配，比单押一个模型稳，也更省。

这是这两天的真实记录：

DeepSeek Token 消耗

最近一个月的中转站费用

Kimi

把两天的账摆在一起

对比项	DeepSeek V4 Pro（昨天）	DeepSeek V4 Flash（今天）
主要用途	常规开发	E2E 测试 + 问题修复
实测吞吐	一天 16 个 PR	截至目前约 10 个 PR
速度 / 顺手度	比之前用 Opus 那阵更快	一样快，E2E／修复很顺
每日费用	按量就开始省（原中转站约 50/天）	含 Kimi 摊销 all-in 约 10/天
稳定性	稳（项目文档扎实）	稳（验证 + 单测兜底，没出问题）

每日费用大致是这么一条线：之前光中转站就 50 上下／天 → 这两天换上 DeepSeek、把 Kimi 摊进去，一天 all-in 也就 10 上下。几天时间，日成本砍到原来的五分之一，活儿不光没拉胯，反而更快、能处理的事更多。

（这里的「10 块」已经把 Kimi Allegretto 包月 199/月摊进去了——折每天 ≈6.6，再加上 DeepSeek 按量那几块凑出来的，不是只挑按量付费报的漂亮数。）

复盘：我那套工程规范，悄悄长成了半套 Harness

老实讲，我不敢把功劳一口咬死在「便宜模型也能打」上。坐下来复盘，我反而后知后觉地发现了一件有点好笑的事——我从没专门为 AI「搭」过什么脚手架，可当我把模型换得越来越笨、越来越便宜，才发现真正接住它的，是两层早就存在、却被我忽略的东西。

第一层，才是真正意义上的 Harness——模型外面那层「驱动机器」。 业内现在把它定义得挺干脆：一个 agent = 模型 + Harness，Harness 就是除模型之外、负责驱动它干活的一切（工具、上下文、验证反馈、护栏、编排）。我这两天真正在吃红利的，其实是三件早就在做的事：

自动验证回喂：每次改动必须跑通 lint、类型检查和相关测试，不过就把失败原因塞回去让模型自己改。写错不要紧，被挡回来重写就是了。
跨模型路由：我手里不止一个模型——底下还垫着一个包月的 Kimi Allegretto（199/月），平时搭配 GPT、Claude 一起用，通常先把 Kimi 的周配额耗尽，再动用按量付费的部分；拿不准的需求让强模型出方案，执行再丢给便宜模型。这套「谁便宜谁先上、谁靠谱谁拍板」的调度，本身就是 Harness 的活儿。
护栏：危险操作拦一道、留好回滚，换个更笨的模型也不至于闯大祸。

这三样，本来是给「人」和「省钱」定的规矩，却恰好接住了模型掉下来的那部分能力——它们才是真正让我敢把模型一路降级的东西。

第二层，是代码库本身的底子——模型干活的那片「地形」。 严格说它不算 Harness，但它决定了 Harness 好不好使：扎实的文档、目录约定、代码范式，让模型一进来就知道规矩、不用猜。而这片地形，很可能正是早期 Opus 协助我一点点打下来的——那阵子是它陪我把架构立稳的；如今 Flash 进来，更多是「比着葫芦画瓢」，照着既有模式填，而不是从零做架构决策。

所以更准确的说法是：不是「便宜模型也能打」，而是「一套够用的 Harness，加上一片打好的地形，合起来把模型变成了一个可以随时替换的零件」。

几个我不敢打包票的地方

把话说满之前，得先承认这次「实验」并不严谨：

只有两天、一个项目。 样本小到不能再小，换个陌生代码库、换个阶段，结论完全可能反过来。
任务偏「顺手活」。 这两天大多是常规开发、E2E 和问题修复，本来就吃既有模式；真要从零做架构、啃硬骨头，便宜模型大概率还是会露怯。
账单的下降，不全是模型的功劳。 从约 50 到约 10 里，既有「模型本身更便宜」的部分，也有「我顺手绕开了那个突然涨价的中转站」的部分。省钱是真的，但别把它整个算成「便宜模型的胜利」。

所以更准确的说法是：够扎实的底子 + 强模型早期打的地基 + 合适的任务类型，三者合起来，才把「换便宜模型」的代价压到了我能接受的范围。

几条体会，也有差点栽的地方

不谈虚的，就说我这两天最实在的几点：

真正给我底气的是验证闭环，不是模型。 要不是 lint、类型检查和测试在那兜着，我根本不敢把模型往便宜了换——这一步要是缺了，换模型基本等于裸奔。
别指望便宜模型「全包」。 今天我也是被自己提醒着才学乖：拿不准的需求先让强模型出方案，再交给便宜模型执行，别一上来就 all in。
文档和约定要趁早，别等到想省钱才想起。 底子越清楚，越便宜的模型越够用；临时抱佛脚是补不回来的。
把模型做成可切换的配置。 这样下次再冒出更便宜的，几分钟就能再省一笔，而不是回头改一堆代码。

写在最后

这次从 Opus 换到 Flash，省下的钱很实在；但更让我在意的，是一个越来越强的猜测：

在 Agent 编码的时代，决定体验的，可能早已不只是你用了哪个模型，而是你把模型之外那层底子做得有多扎实。

模型只会越来越便宜、越来越快。结论我还不敢拍死，但至少这两天我信了一件事：你认真做的每一条工程规范，都在悄悄攒成一套 Harness——等哪天你想换个更便宜的模型，它早就替你把路铺好了。

（本文基于 2026 年 6 月 29 日至 30 日两天的真实使用记录，结论可能随后续观察修正。）

文档信息

本文作者：王翊仰
本文链接：https://www.wangyiyang.cc/2026/06/30/from-opus-to-flash/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）

起因：两条退路同时断了

第一天：换上 DeepSeek V4 Pro

第二天（今天）：再往下试 V4 Flash

把两天的账摆在一起

复盘：我那套工程规范，悄悄长成了半套 Harness

几个我不敢打包票的地方

几条体会，也有差点栽的地方

写在最后

文档信息

蒸馏还是夺舍——一次对FDE 和 Skill 的思考

当 Skill 跑在 Kubernetes 上：我是如何让它更安全的

我是如何让 Skill 稳下来的

这篇 Harness，写到你对象都能看懂

我把一个 Skill 从手写 Prompt 重构成了可编译模块——一次 DSPy 实战复盘