AI 原生的思考方式:不能被 Token 解决的问题,才配叫问题

目录:

上周,一个做 ToB SaaS 的朋友跟我吐槽:他花了两周让 AI 帮忙写了一套完整的 CRM 后端,代码质量不错,测试覆盖率也够。但上线三天就被叫停了——因为产品方向本身就是错的,客户根本不需要这个功能。

两周的 Token 消耗,毁于一个没被认真思考过的问题。

这不是个例。2026 年了,我见过太多团队掉进同一个坑:把 AI 当成万能螺丝刀,拿着它满世界找螺丝拧。 问题在于,很多时候你面前的根本不是螺丝,而是一颗钉子——甚至连"要不要固定这块板"这个前提都没想清楚。

三年 AI 原生工作实践下来,我逐渐形成了一条判断标准:不能被 Token 解决的问题,才配叫问题。

这句话听着像在抬杠,其实它是我用来做工作分配的核心心智模型。

Token 擅长什么:模式空间内的高效执行

先说 Token 的能力边界在哪。这不是贬低 AI,而是用好它的前提。

代码生成:从规格到实现的直线距离

我现在的开发流程里,大约 70% 的"写代码"环节已经被 AI 接管。举几个真实场景:

DingTalk 插件开发。 我维护一个 3800 行的钉钉消息处理插件。每次需要新增一种消息类型的处理逻辑,我只需要描述输入格式和期望行为,AI 就能生成符合项目既有模式的代码——包括错误处理、日志记录、类型定义,甚至单元测试。这类工作的特征是解空间被上下文高度约束,AI 在已有代码中学到了"这个项目是怎么做事的"。

数据处理管道。 一家做电商数据分析的客户,需要把十几种不同格式的供应商数据统一成内部格式。以前这种 ETL 脚本写起来枯燥且容易出错,现在直接丢几个样本文件给 AI,它能准确推断映射规则并生成转换代码。效率提升不是百分比能衡量的——是从"一个人干两天"到"半小时搞定"的质变。

测试用例补全。 某个项目的测试覆盖率从 40% 拉到 85%,核心工作不是我写的,是 AI 根据业务逻辑和边界条件批量生成的。我的工作是 review 这些测试是否真正测到了该测的东西——这个 review 环节,反而是 AI 做不好的。

这些场景的共同点:输入可以被清晰定义,输出有明确的评估标准,且解空间在训练数据的覆盖范围内。 简单说,这是"有标准答案的考试",AI 是天生的应试高手。

信息处理:大规模模式匹配的降维打击

另一类 AI 擅长的工作是信息的搜集、整理和初步分析:

  • 一份 50 页的行业报告,AI 10 分钟提取出所有关键数据点和趋势判断
  • 一个 GitHub 仓库的 200 条 Issue,AI 自动分类、识别重复、标记优先级
  • 用户反馈的语音记录,AI 转写后提取情感倾向和高频关键词

这些工作本质上是模式匹配。它们确实很重要、很耗时,但它们不是"问题"——它们是解决问题的原材料。

Token 的边界:模式空间之外的无人区

说完 AI 能做的,来看看那些真正需要人类智能的地方。

问题定义:最贵的认知劳动

这是我见过最被低估的能力。

一家在线教育公司找我咨询,说"完课率太低,只有 30%,想用 AI 做个智能督学系统"。表面看这是个明确的技术问题,可以用 Token 解决——做个 Agent 定时推送提醒、分析学习行为、个性化推荐内容。

但我问了几个问题:

  • 用户买课的动机是什么?是真想学,还是冲动消费?
  • 30% 的完课率在你们品类里算低吗?
  • 完课的用户和没完课的用户,在续费率上有显著差异吗?

深挖后发现:他们 60% 的用户是被直播间冲动转化的,买课本身就没有强学习意愿。完课率低不是"学习体验差"的问题,而是流量质量和产品定位不匹配的问题。花三个月做 AI 督学,不如花三周调整投放策略和课程定价。

定义问题的能力,就是把钱花在对的地方的能力。 AI 可以帮你更快更好地解决一个问题,但它不会告诉你"你在解决一个错误的问题"。

架构决策:不可逆选择中的判断力

技术架构选型是另一个典型案例。

一个日活 50 万的社交产品,技术负责人在纠结要不要把消息系统从 MySQL 迁移到专门的消息队列架构。AI 可以:

  • 详细对比 Kafka、Pulsar、RocketMQ 的技术指标
  • 生成完整的迁移方案和代码
  • 估算资源成本和迁移周期

但 AI 判断不了的是:

  • 团队 8 个后端里只有 2 个人用过消息队列,培训周期和出错概率怎么算?
  • 公司刚融了 A 轮,未来 12 个月的首要目标是用户增长而非技术稳定性,现在做这件事值不值?
  • 如果 CTO 本人半年后可能离职,谁来为这个架构的长期演进负责?

这些因素没法被编码成 prompt。 它们涉及对人、对组织、对时机的综合判断——而这种判断力,恰恰是一个技术管理者最核心的价值。

利益博弈:人性不是参数

去年帮一个团队做技术选型,表面是"选 A 框架还是 B 框架"的问题,实际是两个技术 Leader 的路线之争。选 A 意味着甲方团队承担更多工作,选 B 意味着乙方团队要学新东西。技术指标上两者几乎打平。

最终决定选了 B,不是因为 B 在技术上更优,而是因为乙方团队 Leader 刚入职不久需要一个证明自己的机会,且甲方团队本身已经超负荷。

这种决策涉及的是组织政治、个人动机、团队士气——Token 对这些一无所知。

一个实用的思考框架

把上面的思考落地,我日常工作中用三个问题做快速筛选:

第一问:这件事的输入和输出能否被明确描述?

如果你能用一段话清楚说明"给 AI 什么、期望它产出什么",大概率可以交给 Token。如果你自己都说不清楚期望什么结果,那你要做的第一件事是想清楚,而不是急着调用 API。

第二问:做错了的代价是什么?

写错了一个函数,跑一遍测试就知道了,成本是几分钟。但选错了技术方向、误判了市场需求、得罪了关键人物——这些错误的修复成本可能是几个月甚至不可逆的。高风险决策必须由人类来做。

第三问:这个问题是否可以被拆解为"人类定义 + AI 执行"?

大多数复杂工作都不是纯 Token 问题或纯人类问题,而是两者的组合。关键是找到切分点。比如写一篇技术博客:

环节负责方原因
选题和核心观点人类需要判断力和独特视角
资料搜集和整理AI模式匹配,大规模信息处理
大纲和初稿AI基于模式生成结构化内容
深度修改和润色人类加入经验、调整语气、强化逻辑
事实核查AI + 人类AI 初筛,人类终审

这篇文章本身就是这么写的。核心论点和案例来自我三年的实践经验,结构生成和初稿交给了 AI,最终的表达、判断和取舍是我自己的。

组织层面的启示

如果你带团队,这个框架意味着一些深层变化:

岗位价值需要重新评估。 如果一个人的工作内容 80% 是"能被 Token 解决的",那这个岗位的价值支撑点在哪?不是说要裁人,而是要把人从低价值工作中释放出来,让他们去做问题定义、方案决策、关系建设这些真正有壁垒的事。

评估标准必须改变。 “写了多少代码"“处理了多少工单"这类执行指标越来越廉价。真正有价值的指标是:你定义了多少好问题?你做了多少影响深远的正确决策?你阻止了多少团队走弯路?

AI 基础设施要当一等公民。 团队的知识库、Prompt 模板库、AI 工作流——这些不是锦上添花,而是基础设施。就像十年前你不会让员工用记事本写代码一样,今天也不应该让他们裸手处理那些 AI 能轻松搞定的工作。

两个需要警惕的坑

坑一:AI 依赖症。 什么都问 AI,包括那些本应自己想清楚的问题。长此以往,判断力会退化。我见过有人连"今天中午吃什么"都要问 ChatGPT——这不是 AI 原生,这是思考懒惰。

坑二:AI 恐惧症。 因为 AI “不完美"就拒绝使用,坚持手动完成所有工作。这就像因为计算器"有时候按错键"就坚持用算盘。重点不是 AI 是否完美,而是它是否比你手动做更高效、更一致。

写在最后

“不能被 Token 解决的问题,才配叫问题”——这句话的潜台词是:你的时间和注意力是稀缺资源,要投入到投资回报率最高的地方。

能被 Token 解决的事,让 Token 去做。 不能被 Token 解决的事,才是你作为一个人、一个专业人士、一个决策者真正的战场。

当你下次接到一个任务时,先停三秒钟问自己:这是一个 Token 问题,还是一个真正的问题?

这三秒钟的思考,可能比之后三天的执行更有价值。


See also