翊行代码 — 用代码丈量世界,以仰望探索未知

翊行代码

翊码行远,仰观星辰 ——用代码丈量世界,以仰望探索未知

Writing

最新文章

  1. 老掉牙的编程原则,才是 Pi 最强的 Harness(附完整AGENTS.md)

    Pi 极简到近乎「空」,不是把整个 Harness 还给你,而是把「你自己配的那层」放到最大——真正接住模型的,是你写进 AGENTS.md 的老原则。

    AI Agent CLI
  2. 或许是 Harness——我从 Opus 换到了 Flash

    被中转站涨价、Kimi 周配额告急逼着,两天里把主力模型从 Opus 一路换到 DeepSeek V4 Flash。没翻车,反而更快更省——复盘发现,真正兜底的是一套早就悄悄长成的 Harness。

    AI Agent
  3. 蒸馏还是夺舍——一次对FDE 和 Skill 的思考

    把『蒸馏』升维成一把剃刀:凡是能写成知识、接口、流程的显式制品,都会被更通用的能力吸收。真正要防的不是被蒸馏,而是被夺舍。

  4. 当 Skill 跑在 Kubernetes 上:我是如何让它更安全的

    姊妹篇。上一篇《我是如何让 Skill 稳下来的》讲怎么让 Skill 少翻车;这篇接着往下问一句:万一它真翻了,能不能别把你也带下水。

  5. 从 LLM Wiki 到 Harness 护城河:一人公司的知识底座为什么是 Notion AI

    模型正在变成水电(commodity),极低成本用一流模型只是表层红利;真正的护城河是模型 × 结构化上下文 × 编排(Harness)。以 Karpathy 的 Obsidian LLM Wiki 为入口,论证一人公司为何最终应把 Notion AI 立为 Agent 体系的核心知识底座,本地只留临时缓存。

    AI
  6. 我是如何让 Skill 稳下来的

    系列开篇(复盘体)。核心判断:一个能长期稳住的 Skill,从来不只是一段 Prompt,而是 Prompt + 脚本——Prompt 负责'想',脚本负责把不该靠想的步骤'做死'。用代码审查 Skill 换模型翻车和日报 Skill 老出错两个真实坑,引出'该交给谁'的判断表,再升维到 Harness 输入/执行/约束/验收四层框架,论证一人公司训不了模型、却能把'哪步交给 Prompt、哪步写成脚本'做到极致。

  7. 这篇 Harness,写到你对象都能看懂

    用大白话把 Harness 讲到你对象都能看懂:它不是什么高深技术,就是「别让 AI 瞎猜」——把干活的每一步尽量定死,减少模型的推测,就是减少变量,结果才稳。

  8. 那份周报是 AI 编的,第一个信的人是我

    用一件糗事开场:我让 AI 把几条零散进展扩写成周报,三天后连自己都信了它编出来的「下一步规划」。写的人尚且会被骗,天天看 AI 产出的人更不必说——生产端的成本塌了地板,消费端的判断力正在被一口口喂钝。全程第一人称,不替读者下结论。

    AI
  9. 我把一个 Skill 从手写 Prompt 重构成了可编译模块——一次 DSPy 实战复盘

    手写 Prompt 的 Skill 一换模型就翻车,根因是我把措辞当源代码硬编码了。这篇复盘用 DSPy 重构的全过程:只声明契约和打分函数,措辞交给编译器自动生成;换模型重新 compile 一次,当初翻车的 case 全部跑通。

    AI AI Agent
  10. Claude Opus 4.8 发布:当 AI 能并行调度数百个子代理,编程的边界在哪里?

    Anthropic 同时发布 Claude Opus 4.8 和 Dynamic Workflows,前者在编码基准测试上全面超越 GPT-5.5,后者让单个 Claude Code 会话能并行运行数百个子代理。这不仅是模型升级,更是 AI 工程范式的根本转变。

    AI Agent
京ICP备2021015985号-1