Agent-as-a-Judge:自进化Agent的眼睛

Why self-evolving agents need automated evaluation to survive long-horizon tasks

上周,一个朋友的团队遇到了这样一件事:他们部署了一个 Coding Agent,让它独立完成一个微服务模块的重构。Agent 跑了整整 6 个小时,提交了 47 个 commit,改了 2000 多行代码。第二天早上,Tech Lead 打开 PR,看着满屏的 diff,沉默了五分钟,说了一句:“我怎么知道它中间做对了什么、做错了什么?”

这不是个例。随着 Agent 能处理的任务越来越长、越来越复杂,一个被忽略的问题浮出水面:谁来评估 Agent 的工作?

[Read More]

AI 原生团队的三力模型:远见、流动、补位

Three Operating Layers Behind a True AI-Native Team

上周一个朋友(某 SaaS 公司的产品 lead)发我一段视频:他们公司请来了一位"AI 转型顾问",PPT 上密密麻麻写着 30 多项行动——成立 AI 委员会、设立 AI OKR、采购 AI 工具矩阵、推行 AI 培训计划、设置 AI Champion……

看到第 24 页时他截图问我:“你觉得我们三个月后会变成 AI 原生团队吗?”

我反问他:“你最近一次把一个想法从冒出来到上线,用了多少天?”

他沉默了一会儿:“上一个功能,从 PRD 评审到线上,47 天。”

我说:“那不管你们买多少工具,请多少顾问,你们都不是 AI 原生团队。”

隔壁一家 5 个人的初创团队,同期上线了 11 个功能,每个从想法到用户手里平均 6 天。两边用的是同一批模型、同一批工具,差距来自完全不同的地方。

[Read More]

用 LLM Wiki + Obsidian 构建个人 AI 知识图谱

Automated knowledge graph with Hermes Agent and Obsidian

去年年底,我做了一个实验:把过去十年写的 190 多篇博客、Obsidian 里的读书笔记、还有悟空 Agent 的实践记录,全部扔给 Hermes Agent,让它按照 Karpathy 的 LLM Wiki 模式自动整理。

三天后,我打开 Obsidian 的 Graph View,看到了一个由 50 多个节点互相连接的知识网络 — 不是文件归档,而是一个真正的知识图谱。Agent 自动提取了实体和概念,建立了双向链接,甚至发现了我自己都没意识到的关联:[[compression-as-intelligence]][[agent-memory]] 之间有一条隐含的逻辑链,我自己写了三年都没发现。

那一刻我意识到:个人知识管理的瓶颈不是工具,而是"碎片到结构"的转换成本。 这篇文章,我把整个系统的架构、自动化流程和实际用法完整拆解出来。

[Read More]

AI 工程的 10X 生产力,藏在测试和监控里

Why Testing and Monitoring Are the Real Multipliers in AI Engineering

上周,隔壁组的小天在周会上很兴奋:“用 Cursor 一天写了 3000 行代码,这周迭代速度提升了一倍!”

同一周,他的服务触发了 4 次线上告警。

原因不复杂:AI 生成的代码跑通了主流程,但边界条件没覆盖,异常处理有遗漏,依赖服务的超时场景没考虑到。3000 行代码里,有 800 行是"看起来能跑"的代码。

小天不是个例。过去一年,几乎所有团队都经历了同一个曲线:

  1. 第一个月:AI 编码工具让产出翻倍,团队欢呼
  2. 第二个月:Bug 率上升,线上事故增多,开始还债
  3. 第三个月:实际交付速度回到了 AI 之前的水平,甚至更慢

问题出在哪里?

AI 降低了"写代码"的成本,但没有降低"交付可靠产品"的成本。 而后者,才是生产力的真实度量。

[Read More]

AI 原生产品增长打法:你的预算在烧钱,还是在训练产品?

Growth equals how fast your agent gets smarter, not how much you spend on ads

两周前,一个做 AI 写作 Agent 的朋友约我吃饭,他刚拿了 A 轮,准备砸 200 万投放抖音和小红书。

我顺嘴问了一句:你们 Agent 的复杂任务成功率是多少?

他愣了一下,说:“你这问题问得有点怪,我们看的是 DAU 和留存。”

三个月后我们再见面,他融的钱烧了一半,DAU 涨了三倍,月留存从 18% 掉到了 9%。他叹了口气:“用户来了,但 Agent 还是那个 Agent。”

那一刻我意识到一件事:很多 AI 创业团队还在用 SaaS 时代的增长教科书,跑一个根本不是 SaaS 的生意。

[Read More]

AI 机会在变少:2026-2027 是最后的关键期

The Closing Window of AI Opportunity: Why 2026-2027 Matters Most

上周和一个刚从大厂出来创业的朋友聊天。他去年还在犹豫要不要做 AI 应用,今年终于下定决心,却发现赛道已经变了:

“半年前我觉得自己能做一个 AI 写作工具,现在发现 Notion、飞书、钉钉全内置了。半年前我觉得 AI 客服是个机会,现在发现大厂已经把价格打到了几分钱一次调用。我出来晚了?”

他没说错。

2023 年 ChatGPT 爆发时,所有人都觉得 AI 遍地是黄金。但到了 2026 年的今天,一个越来越清晰的趋势是:AI 的机会不是越来越多,而是越来越少。

更准确地说:留给普通人和中小团队的机会窗口,正在快速关闭。2026 到 2027 年,是最后的关键期。

[Read More]

代码复制成本归零:工程师的价值正在向上漂移

When copying code costs nothing, taste becomes the new moat

上周六下午,我在 GitHub 上刷到一个 5k star 的开源 CLI 工具——一个看起来挺漂亮的本地日志聚合器。我心血来潮:能不能用 Claude Code 复刻一个?

三个小时后,核心功能跑起来了。彩色输出、文件 watch、正则过滤、多源合并,一应俱全。我兴奋了大概五分钟,然后意识到一件让我心里一沉的事:

我根本不需要这个工具。

那为什么三个小时前我会觉得"做出一个这样的东西"是有价值的?

因为在我过去十几年的职业训练里,“能做出来"本身就是稀缺的。一个能从零搭出完整工具的工程师,值钱。但今天下午,这个稀缺性在我自己的笔记本上被亲手碾碎了。

[Read More]

自驱力 × AI = 100倍效率:AI原生组织的人性博弈

When Self-Drive Meets AI Amplifier: The 100x Efficiency Equation

上周和一个做 AI 创业的朋友吃饭,他说了这样一段话:

“当一个 3.75 的同学收到超预期的即时奖励时,他爆发出来的效率是 10 倍的提高。再加上 AI 这个放大器,一个人绝对有可能达到 100 倍的效率提升。”

我当时第一反应是:这个数字太夸张了。但回来路上仔细想,我发现真正值得讨论的不是 100 倍这个数字是否准确,而是这句话背后隐含了一个组织范式的根本性转变——

传统组织靠控制来管理风险,AI 原生组织靠激发来释放上限。

而这两者的底层假设,完全不同。

[Read More]

To B 的生意只有两种

The Two Paths of B2B Business

上周和两个做 To B 的朋友吃饭,一个在 Salesforce 生态里做 ISV,一个在做面向中小商家的 SaaS。

做 ISV 的朋友说:“我们今年的策略很简单,盯住那些已经用 Salesforce 用得很好的大客户,帮他们把最后 10% 的定制化需求补齐。客户预算充足,决策链清晰,签一单够吃半年。”

做中小商家 SaaS 的朋友叹了口气:“我们正好相反。客户连 Excel 都不太会用,你得先教他为什么要数字化,再教他怎么用。但好处是,一旦用上了,粘性极高,因为他自己搞不定。”

两个人说完,桌上安静了几秒。

我忽然意识到,他们说的其实是同一件事的两个面——To B 的生意,归根结底只有两种:帮成功的人更成功,帮不成功的人成功。

这篇文章写完初稿后,一个做企业级 Agent 的创业者找我聊。他说:“我觉得 Agent 赛道不太一样。我们现在既在做 Copilot 帮员工提效,又在做 Auto Agent 帮企业自动化流程。两条路都在试。”

我问:“你们现在有多少客户?”

他说:“十几个吧,但每个客户用的方式都不一样。我们团队被扯得很散。”

我说:“你可能正在经历第三种死法——同一家公司同时做两条路径。”

他沉默了一会儿:“那你觉得该怎么选?”

这篇文章就是完整的回答。

[Read More]

企业打造AI原生组织:六维转型模型的落地路径

From AI-Enabled to AI-Native: A Practical Roadmap for Enterprise Transformation

上周三,一家头部互联网公司的CTO在季度复盘会上盯着一组数据沉默了整整两分钟。

Q1 的 AI 投入报表显示:工程团队 token 消耗同比增长 400%,人均 AI 工具支出逼近 20 万美元/年——已经和一个高级工程师的人力成本持平。但业务端呢?营收增长 35%,客户满意度提升了 8 个百分点。

“我们买了蒸汽机,但跑出来的速度还不如马车。“他最终说了这么一句。

会议室里没人接话。因为所有人都知道,问题不在 AI 技术本身——他们的工程师确实写出了更多代码,做了更多功能。问题在于:组织的工作方式没有变。AI 被塞进了旧的流程、旧的考核、旧的管理思维里,变成了"更贵的自动化”。

这不是个例。2026 年硅谷一线的最新观察揭示了一个残酷现实:AI 技术迭代已经进入"周级范式转换”,但绝大多数企业的组织形态还停留在"年度规划+季度复盘"的工业时代节奏里。技术跑得太快,组织跟不上,中间的鸿沟正在吞噬 AI 本该带来的价值。

[Read More]