Tiger Teams：AI 工程的新组织范式

AI 工程进入深水区后，组织方式也要变。真正有效的团队，不是按职能排队，而是围绕问题组建高密度小队。

Tiger Teams 不是一个新词。

但放到 AI 工程里，它重新变得重要。

因为 AI 项目最大的问题，往往不是某个单点能力不足，而是模型、数据、产品、评估、安全和工程链路同时纠缠在一起。

传统职能分工很容易让问题在团队之间来回传递。

Tiger Team 的价值，就是把关键角色短时间拉到同一个问题现场。

AI 项目不适合长链条传递

一个 Agent 项目出问题时，原因可能来自很多层：

prompt 设计不清楚；
数据质量不稳定；
工具权限过宽；
评估集缺失；
产品入口不合理；
运行时缺少可观测性。

如果每一层都等另一个团队排期，系统会越拖越慢。

AI 工程需要更短的反馈回路。

Tiger Team 解决的是密度

Tiger Team 的关键不是“人多”，而是密度高。

一个小队里最好同时有：

了解业务目标的人；
能改模型链路的人；
能改产品入口的人；
能补评估和数据的人；
能处理安全和发布风险的人。

这些人围绕一个明确问题短周期推进，比大型跨部门同步会更有效。

flowchart TB
    A["明确问题"] --> B["业务目标"]
    A --> C["模型链路"]
    A --> D["产品入口"]
    A --> E["评估样本"]
    A --> F["安全边界"]
    B --> G["短周期修复"]
    C --> G
    D --> G
    E --> G
    F --> G

Evals 会成为 Tiger Team 的共同语言

AI 项目最怕讨论变成主观感受。

“好像更聪明了”“感觉更稳了”“这次回答不错”，都不足以指导工程迭代。

Tiger Team 需要共同语言，这个语言就是评估。

评估集、失败样本、回归指标、人工复核标准，会让不同角色围绕同一组事实讨论。

没有 Evals，Tiger Team 很容易变成临时救火队。

有了 Evals，它才会变成持续改进小队。

Google Research 对 180 组 Agent 配置的评估有一个很值得组织吸收的结论：多 Agent 不是越多越好，任务结构会决定扩展是否有效。这类结果会倒逼团队用评估集讨论系统，而不是用“多上几个 Agent”替代工程判断。

先给结论

AI 工程的新组织范式，不是所有人都变成 prompt engineer。

更可能发生的是：围绕关键问题形成高密度、短周期、跨职能的小队。

Tiger Teams 的价值不是制造组织口号，而是缩短从问题发现到系统修复的路径。

当 AI 系统越来越复杂，组织方式也必须从职能排队，转向围绕问题作战。

参考资料：

https://research.google/blog/towards-a-science-of-scaling-agent-systems-when-and-why-agent-systems-work/
https://www.infoq.com/podcasts/tiger-teams-evals-agents/

Tiger Team 不等于临时加班小组

很多团队会误解 Tiger Team。

以为它就是遇到问题后拉几个人集中救火。

如果只是救火，它不会形成组织能力。

真正有效的 Tiger Team 有三个特征：

第一，目标明确。

不是“提升 Agent 效果”，而是“把订单客服场景的一次解决率从当前基线提升到目标区间，同时不增加高风险误操作”。

第二，周期有限。

它不是永久组织，而是围绕一个问题进行两到四周高密度迭代。

第三，产出可沉淀。

最后留下的不是会议纪要，而是评估集、失败样本、工具改造、流程规范和可复用经验。

AI Tiger Team 的标准配置

一个 AI 工程 Tiger Team，最好不要全是算法或全是后端。

比较合理的配置是：

业务 owner：定义真实成功标准；
AI engineer：负责模型链路和提示策略；
后端或平台工程师：负责工具、权限、运行时；
产品或设计：负责入口和交互；
QA 或评估负责人：负责样本、指标和回归；
安全或合规角色：评估风险边界。

人数不用多，但角色要完整。

为什么 Evals 是组织语言

没有评估，Tiger Team 很容易变成意见战。

业务说不准，工程说能跑，算法说指标变好了，产品说用户还是不满意。

评估集能把争论拉回事实。

比如：

哪些样本失败最多；
哪些错误最伤用户；
哪类任务应该交给人；
哪些工具调用最不稳定；
新版本有没有回归。

这些问题能被量化，团队才有共同改进方向。

一个两周 Tiger Team 怎么跑

以“客服 Agent 幻觉率过高”为例，一个两周 Tiger Team 可以这样推进。

第一天只做问题定义：确认幻觉类型、影响用户、当前基线、可接受目标。

第二到三天整理失败样本：把真实对话按错误类型分组，建立最小评估集。

第四到七天并行修复：模型链路调提示词和检索策略，平台补工具权限和日志，产品调整转人工入口。

第八到十天跑回归：新旧版本对同一批样本做对比，看幻觉率、拒答率、解决率是否同时改善。

最后两天沉淀资产：保留评估集、失败案例、改动记录和上线守护指标。

这个过程的重点不是开了多少会，而是每一天都围绕同一个可验证问题收敛。

Tiger Team 不能替代长期平台能力

Tiger Team 适合解决高不确定、高耦合的问题。

但它不能成为所有 AI 项目的常态组织。

如果每个问题都要临时拉人救火，说明平台能力还不够：评估体系不成熟、日志不完整、工具权限不清、发布流程不稳定。

健康的组织应该让 Tiger Team 解决关键难题，然后把经验沉淀回平台。

这样下一次类似问题出现时，不需要再从零组队。

最后：组织反馈速度要跟上系统变化速度

AI 工程越往后，越不是单点英雄主义。

真正能把系统做稳的团队，会围绕问题建立小型、高密度、可评估的作战单元。

Tiger Team 的本质，是让组织反馈速度跟上 AI 系统变化速度。

文档信息

本文作者：王翊仰
本文链接：https://www.wangyiyang.cc/2026/04/09/Tiger-TeamsAI-工程的新组织范式/
版权声明：自由转载-非商用-非衍生-保持署名（创意共享3.0许可证）