AI 时代,人人都能建模了吗?

工具民主化了,但建模思维没有

上周有个做运营的朋友拿着一个 AI 帮他建的销量预测模型来找我,特别兴奋:“你看,R² = 0.89,是不是挺准的?”

我看了一眼,模型确实跑得不错。历史数据拟合得很好,特征工程也挺合理——用了过去 30 天的销量趋势、星期几、是否节假日。

我问他:“下周要下一整周的雨,你的模型知道吗?”

他愣了一下。

我又问:“竞品下周搞 618 预热大促,你的模型考虑了吗?你们市场部刚换了投放渠道,从抖音换到了小红书,这个变量在哪?”

他沉默了。

模型没有错。R² = 0.89 是真的。但这个模型不知道自己不知道什么。更要命的是,用这个模型的人也不知道。

这就是我今天想聊的事:AI 让建模的门槛低了,但这不等于人人都能建好模。

[Read More]

让 AI 自己写 Skill:可进化 Agent 的设计原理与最佳实践

Why procedural memory beats static prompts, and how to build skills that improve over time.

今天下午我做了一件听起来有点奇怪的事——让 AI 读完了我自己的 174 篇博客,提炼出写作风格,写成了一份可执行的配置文件,然后告诉它:“以后每次写文章就按这个标准来,写完还要自己更新它。”

它真的照做了。不仅生成了一份包含六大风格特征、两种文章模板、四个薄弱环节和改进路线图的 Skill 文档,还自动附加了一条"进化协议"——每次使用完毕后检查是否需要更新。

这不是 prompt engineering,也不是 RAG。这是给 Agent 建程序性记忆(Procedural Memory)。

很多人给 AI 配了知识库、写了几百行 system prompt,但用起来总觉得"不长进"。问题不在于模型,而在于记忆的结构。静态 prompt 是一次性指令,而可进化的 Skill 是活的——它会随着使用自动迭代、越用越准、越用越像你自己。

[Read More]

AI Native 流程的一头一尾:用户问题理解与自动验证

VOC 自动解决流程中,最难也最关键的两个环节

之前写过一篇用 AI 把 VOC 变成自动化流水线,讲的是整条流水线的架构——采集、分析、路由、执行。反馈不错,但也有读者指出一个关键问题:中间的部分(分类、路由)其实相对好做,真正难的是一头一尾。

“头"是用户问题理解——用户说"页面打不开”,你能不能自动搞清楚是哪个页面、什么场景、能不能复现、根因是什么?

“尾"是自动验证——修完 bug 之后,你能不能自动生成测试用例来证明"确实修好了,而且没有搞坏别的东西”?

这两个环节恰好是 AI Native 流程区别于传统自动化的核心:传统自动化靠规则,处理的是确定性问题;AI Native 靠理解和推理,处理的是模糊性问题。这篇文章就把这一头一尾拆开讲透。

[Read More]

用「好同事」模型理解人与 AI 的协作

AI 落地的真正瓶颈不是技术,是你会不会派活

想象你团队来了个新同事——聪明、勤快、知识面广,但对你们的业务一无所知。第一天上午你走过去说:“帮我整理一下那个项目的材料。” 没说哪个项目,没说给谁看,没说什么格式,没说什么时候要。

他大概率会交出一份正确但平庸的文档。你看了一眼:“这也太模板了。”

这不是他能力不行,是你没把活派清楚。

现在把"新同事"换成 AI。同样的场景,同样的结果。但大多数人的反应不是"我没说清楚",而是"AI 不够聪明"。事实上,AI 落地的真正瓶颈不是模型能力,是任务委托能力——一项被严重低估的管理技能。

[Read More]

LLM 押注在 Coding Agent 上是正确的

当每个人都能写代码,IT 系统的瓶颈不再是技术,而是想象力

三个月前,我用 Claude Code 花了一个下午搭了一套完整的钉钉消息监控系统:自动抓取指定群的消息、按关键词分类、生成每日摘要、定时推送到我的私聊。整套流程从数据采集到定时任务,大约 500 行 TypeScript。

同样的事情,如果走公司正规 IT 流程——提需求、排期、开发、测试、上线——保守估计三个月,还不一定能排上。

这件事让我确信一个判断:LLM 厂商把重注押在 Coding Agent 上,是目前最正确的战略选择。 不是因为 Coding Agent 能替代程序员,而是因为它把"用代码解决问题"这件事的门槛,从"需要一个工程团队"降到了"需要一个能清楚描述问题的人"。

[Read More]

Agent 是复杂个性化需求的最优解:解决用户自己都说不清的问题

为什么传统软件解决不了的需求,Agent 能解决?因为它不需要你先想清楚

上周帮一个客户上线了一个"智能周报助手"。需求方的原话是:“帮我们的销售团队自动生成周报。”

听起来很简单。但往下聊五分钟,你会发现这句话背后藏着至少二十个未定义的决策:周报包含哪些维度?数据从哪来?不同区域的销售负责人关注点一样吗?“好的周报"到底长什么样?客户自己也说不清。

最终的解决方案不是一个固定模板的报表工具,而是一个 Agent——它能根据每个销售负责人的历史偏好、当周数据特征、团队上下文,动态决定周报的结构、重点和措辞。

这件事让我重新思考一个问题:Agent 的核心价值到底是什么? 不是"自动化”,不是"降本",而是——它是目前唯一能规模化解决"复杂个性化需求"的技术方案

[Read More]

当 10 万个定时任务同时敲门:MaaS 平台调度优化实战

从整点风暴到分布式调度——平台视角的六个关键策略

上周五下午 3 点,告警群炸了:MaaS 层的 GPU 推理集群 QPS 在 60 秒内从 1200 飙到 18000,p99 延迟从 800ms 打到 45 秒,大量请求 429。

排查发现原因很"朴素"——大约 3 万个 OpenClaw 实例的定时任务都跑在整点。每个实例可能只有 1-3 个 cron job(数据摘要、定时巡检、报表生成),但所有人的 cron 都写着 0 * * * *0 0 * * *。三万乘以三,就是整点瞬间涌来的近十万个 LLM 推理请求。

这不是应用层的 bug,而是平台设计的缺陷。当你的平台承载成千上万个租户的定时任务时,“整点风暴"不是意外——它是必然。问题是:作为平台设计者,你该怎么办?

[Read More]

AI 原生的思考方式:不能被 Token 解决的问题,才配叫问题

上周,一个做 ToB SaaS 的朋友跟我吐槽:他花了两周让 AI 帮忙写了一套完整的 CRM 后端,代码质量不错,测试覆盖率也够。但上线三天就被叫停了——因为产品方向本身就是错的,客户根本不需要这个功能。

两周的 Token 消耗,毁于一个没被认真思考过的问题。

[Read More]

别再手动整理用户反馈了:把 VOC 变成一条自动化生产线

从原始用户声音到产品 Backlog,一套可落地的端到端自动化流水线设计教程

每家公司都说"以用户为中心",但 90% 的用户声音(Voice of Customer, VOC)最终的归宿是——躺在某个 Excel 表里,等着某个产品经理"有空的时候"去翻一翻。

问题不是团队不重视用户反馈。问题是:从原始反馈到可执行的产品动作之间,隔着太多手工活。 收集、清洗、分类、归因、优先级排序、写进 Backlog——每一步都在消耗人的精力,而人的精力是有限的。

这篇文章是一个完整的教程:如何用 AI + 自动化工具,把 VOC 变成一条可执行的生产线——从原始数据采集,到最终输出结构化的产品需求,全程自动。

[Read More]

别用同一把尺子量所有 Agent:按行业和岗位设计评测体系才是正经事

通用任务型 Agent 评测的核心矛盾——以及一套可落地的分层评测框架设计

上个月参加一个 Agent 产品的内部评审,产品经理拿出一张 benchmark 表格:准确率 92%、响应时间 1.2 秒、幻觉率 3%。数字很漂亮,领导很满意。

然后我问了一个问题:“这个 92% 的准确率,是在什么任务上测的?”

回答是一组通用 QA 数据集。

我又问:“你的目标用户是电商运营,你有没有用电商运营真实工作场景的任务来测?”

会议室安静了五秒钟。

这就是今天 Agent 评测的核心矛盾:我们在用"通用考试"的成绩来预测"专业岗位"的表现。 这就像用高考数学成绩来判断一个人能不能当好外科医生——逻辑上不成立,但大家都在这么干。

[Read More]