人写规则,Token做实验:从Karpathy的autoresearch看AI应用优化新范式

把人从试错循环中解放出来,用Token一夜跑完500轮实验

Karpathy 在 2026 年 3 月开源了 autoresearch,两周内收获近 5 万 Star。项目本身很简单——让 AI Agent 自动修改 LLM 训练代码、跑实验、看指标、保留好的、丢弃差的,一夜循环 100 轮。但简单的背后藏着一个深刻的范式转移:在 AI 时代,人的角色从"做实验的人"变成了"设计实验规则的人",而试错循环本身,交给 Token 去完成。

这不只是 AI 研究的事。任何可以量化评估、快速迭代的业务场景,都可以套用这个范式。

[Read More]

自我进化的AI助手:OpenClaw如何用Heartbeat实现Skill自动优化

从autoresearch到Agent自闭环优化——执行产生数据,数据驱动优化,优化改善执行

上一篇文章中,我从 Karpathy 的 autoresearch 项目提炼了一个范式:人写规则,Token 做实验。我们用 AI 客服 Prompt 优化作为案例,验证了这个范式在业务场景中的可行性。但那个方案有一个前提——你需要预先准备评估数据集。

OpenClaw 的场景让我意识到,还有一种更彻底的可能:Agent 用自己的真实执行数据作为评估信号,在用户无感知的情况下持续自我优化。 不需要人工标注测试集,不需要离线批处理,每一次真实使用都是一条训练数据。

[Read More]

悟空是AI时代的淘宝:Token消费的多快好省

Agent工程的终极目标,是对模型Token消耗的多快好省优化

1962年,一位伟人为中国工业发展题写了"鼓足干劲,力争上游,多快好省地建设社会主义"。六十多年后,当我们审视AI Agent工程的核心挑战时,会发现一个惊人的对称:Agent工程的终极优化目标,本质上就是对模型Token消耗的"多快好省"。

淘宝用十五年把"多快好省"刻进了中国零售的DNA——商品要多、物流要快、品质要好、价格要省。而今天的AI Agent Runtime,正在用同一套逻辑重塑Token消费——模型类型要、响应速度要、完成效果要、使用成本要

悟空——孙悟空七十二变(多)、筋斗云十万八千里(快)、金箍棒降妖除魔(好)、一根毫毛变千猴(省)。一个优秀的Agent Runtime,就是AI时代的淘宝,Token世界的悟空。

[Read More]

AI时代的新代码大全:从McConnell的三大启示到Claude Skill编写指南

二十年前的经典智慧,如何照亮AI时代的软件构建之路

二十年前,Steve McConnell 的《代码大全》(Code Complete 2nd) 以其近 900 页的体量,成为软件工程领域一座难以逾越的丰碑。二十年后,它依然是无数工程师书架上的必备经典。在一场深度的访谈中,McConnell 分享了这部巨著背后的故事、对职业发展的深刻洞见,以及对 AI 时代的冷静思考。

尽管技术浪潮已更迭数代,但 McConnell 的核心思想依然闪耀着永恒的光芒。我从中提炼出三大"启示",它们穿越了语言和工具的变迁,直指软件开发的本质。而当我读完 Anthropic 刚刚发布的 The Complete Guide to Building Skills for Claude 时,我惊讶地发现:这份 AI 时代的"新代码大全",正是 McConnell 理念的最佳实践者。

[Read More]

AI Native 文档:会话即知识,过程即资产

传统文档记录结论,AI Native 文档记录思考

企业每天都在产生大量知识,但绝大多数知识从未被记录下来。不是因为没有文档系统,而是因为真正的知识不在文档里,而在产生文档的过程中

一份产品方案的最终版本只有 10 页,但写这 10 页的过程中,团队讨论了 20 个方案、否定了 15 个、在 3 个关键决策点上反复权衡。这些讨论、推理和决策——才是企业最有价值的知识。传统文档系统只保存了结论,丢掉了思考。

AI Native 文档要解决的,就是这个问题。

[Read More]

构建企业级Agent Runtime:从Skill到Workspace的五层架构

Agent 负责规划,Sub-Agent 负责执行,Skill 负责方法,MCP 负责连接,Workspace 负责上下文

很多团队对 Agent 的理解还停留在"LLM + Prompt + 几个工具调用"。这种理解能跑通 Demo,但一旦进入企业级场景——多任务并行、多系统集成、多角色协作、安全审计——就会发现:Agent 系统的核心挑战不是让 LLM 更聪明,而是构建一个可扩展、可治理、可审计的运行时架构。

Agent 系统本质上在解决五个问题:用户要做什么(Agent)、谁来执行(Sub-Agent)、如何执行(Skill)、从哪里获取数据(MCP)、执行过程的状态存在哪里(Workspace)。这五个问题对应了系统的五个核心层次。

本文将这套架构完整展开。

[Read More]

AI Agent 架构的终局,是 Unix 哲学的回归

Skill CLI = Unix Command,Agent Workspace = Unix Filesystem——我们正在重新发明 Unix

最近在梳理各种 AI Agent 框架和 Runtime 的架构时,我产生了一个越来越强烈的感觉:我们正在重新发明 Unix。

不是比喻。是字面意义上的重新发明。当你把今天主流的 Agent 架构摊开来看——Skill、Workspace、Tool、Pipeline、Orchestrator——你会发现,这些概念和 50 年前 Unix 的设计哲学几乎一一对应。区别只是换了一层 AI 的皮。

[Read More]

为 AI 重建的 IM 架构

从传递消息到管理意图——当 Agent 成为 IM 的一等公民,通信协议需要被重新设计

传统 IM(即时通讯)解决的是一个简单的问题:让人和人高效地交换信息。文本、图片、文件、语音——三十年来,IM 的核心架构围绕着"谁说了什么"展开,安全靠端到端加密,权限靠静态角色控制,审计靠消息日志。这套体系服务了几十亿用户,足够成熟。

但当 AI Agent 成为 IM 中的活跃参与者——不仅接收消息,还理解意图、调用工具、执行任务、产生后果——传统 IM 的架构假设就被从根本上打破了。IM 不再只是信息传递的通道,而是 Agent 协作与执行的操作系统。

这需要一种全新的 IM 架构。

[Read More]

企业专属模型:让企业放心调用大模型的架构最佳实践

从共享 API 到私有化部署——五种架构模式解决'数据会不会被拿去训练'的终极顾虑

和企业客户聊 AI 落地,十次有九次会被问到同一个问题:“我们调用你们的大模型,数据会不会被拿去训练?”

这个问题背后的焦虑是真实的。企业的客户数据、商业机密、内部文档、代码仓库——这些是企业的核心资产。把它们发送给一个外部的大模型 API,本质上就是把家底给别人看了一遍。如果这些数据还被用来训练模型,那等于是在免费帮竞争对手提升 AI 能力。

好消息是,这个问题在 2026 年已经有了成熟的解决方案。坏消息是,大多数企业还不知道该怎么选。

[Read More]

企业级 Agent Runtime 的第一道防线:安全沙箱

文件系统隔离 + 网络访问隔离——从 macOS Seatbelt 到 Windows AppContainer 的操作系统级安全实践

当我们谈论企业级 AI Agent Runtime 时,第一个需要解决的问题不是"模型有多聪明",而是"Agent 执行的代码有多安全"。一个能读写文件、执行命令、访问网络的 Agent,如果没有安全边界,就是一颗不知道什么时候会爆炸的定时炸弹。

企业级的 Agent Runtime 首先需要一个安全沙箱:文件系统隔离 + 网络访问隔离。

[Read More]