目录:
上周有个做运营的朋友拿着一个 AI 帮他建的销量预测模型来找我,特别兴奋:“你看,R² = 0.89,是不是挺准的?”
我看了一眼,模型确实跑得不错。历史数据拟合得很好,特征工程也挺合理——用了过去 30 天的销量趋势、星期几、是否节假日。
我问他:“下周要下一整周的雨,你的模型知道吗?”
他愣了一下。
我又问:“竞品下周搞 618 预热大促,你的模型考虑了吗?你们市场部刚换了投放渠道,从抖音换到了小红书,这个变量在哪?”
他沉默了。
模型没有错。R² = 0.89 是真的。但这个模型不知道自己不知道什么。更要命的是,用这个模型的人也不知道。
这就是我今天想聊的事:AI 让建模的门槛低了,但这不等于人人都能建好模。
一、万事万物皆可建模?
先聊一个更底层的问题:到底什么东西可以建模?
支持的理由
从认知科学的角度看,建模本身就是人类理解世界的基本方式。你说"明天可能下雨",这就是一个模型——基于历史经验和当前观察做出的预测。小孩学说话、司机判断路况、医生看片子,本质上都在"建模"。
从数学角度看,万能近似定理(Universal Approximation Theorem)告诉我们,一个足够大的神经网络可以逼近任意连续函数。理论上,只要数据够多、模型够大,几乎什么关系都能拟合。
从历史来看,建模的边界一直在扩展。100 年前我们觉得天气不可预测,现在 3 天内的天气预报准确率超过 90%。20 年前我们觉得围棋不可能被计算机攻破,现在 AlphaGo 已经是历史了。
质疑与边界
但事情没那么简单。
George Box 说过一句名言:“All models are wrong, but some are useful.” 所有模型都是对现实的简化,关键是简化到什么程度还有用。
混沌系统给建模设了一个硬上限。三体问题、湍流、股市——这些系统对初始条件极度敏感,长期预测在物理层面就不可能精确。你可以建模,但精度有天花板。
哥德尔不完备定理告诉我们,任何足够强大的形式系统都存在不能被证明的真命题。换到建模的语境里:总有一些关系是你的模型框架无法捕捉的。
还有感受质(Qualia)问题——你怎么建模一个人吃到妈妈做的红烧肉时的幸福感?你可以测心率、测脑电波、测面部表情,但那些数字是幸福感吗?
结论
任何事物都可以被建模,只是精度、成本和实用性不同。
关键的判断不是"能不能建",而是"建出来有没有用"、“付出的成本值不值”、“精度够不够支撑决策”。这个判断本身,就需要建模思维。
二、线下活动怎么建模——一个具体的例子
抽象讨论太空,我们来看一个具体场景:一个线下市集活动,怎么建模?
实体建模:先把世界拆开
建模的第一步是定义你的"世界"由哪些实体组成:
活动 Activity
├── 人群 Audience(目标用户画像、预估到场人数)
├── 场景 Venue(场地类型、容量、动线)
├── 流程 Schedule(时间轴、环节设计)
├── 资源 Resource(人力、物料、预算)
├── 规则 Rule(参与条件、积分规则、转化路径)
└── 结果 Outcome(到场率、转化率、ROI)
# generated by hugo's coding agent
这一步看起来简单,但**选择建模哪些实体、忽略哪些实体,就已经是最核心的建模决策了。**你把天气建进去和不建进去,模型的实用性可能差一个量级。
用户参与漏斗:从曝光到复购
线下活动最有价值的模型之一是用户参与漏斗:
曝光 → 注意 → 兴趣 → 到场 → 参与 → 留存 → 转化 → 复购
每个环节都需要不同的数字化手段来采集数据:
| 环节 | 数字化手段 | 数据质量 |
|---|---|---|
| 曝光 | 广告平台曝光数据 | 高,但有注水 |
| 注意 | 点击率、停留时长 | 中等 |
| 兴趣 | 预约/报名数据 | 较高 |
| 到场 | 扫码签到、WiFi 探针 | 高 |
| 参与 | 互动打卡、小程序行为 | 取决于设计 |
| 留存 | 关注公众号/加企微 | 高 |
| 转化 | 下单/付款 | 高 |
| 复购 | CRM 追踪 | 中等,归因难 |
你会发现,越靠前的环节数据越虚,越靠后的环节数据越实但量越少。这就是建模的典型困境:你最想预测的东西,往往数据最稀缺。
数字化四层架构
如果要系统性地做线下活动的数字化建模,可以分四层来想:
- 记录层:把发生的事情数字化记录下来。扫码签到、消费流水、互动日志。
- 分析层:从记录中发现模式。哪些渠道的到场转化率最高?什么时间段互动最活跃?
- 优化层:基于分析做出更好的决策。动态调整展位位置、实时推送优惠券。
- 自动化层:让决策自动执行。基于人流热力图自动调整引导员位置。
大多数团队卡在第一层和第二层之间。不是不想做,而是数据采集的成本太高、数据质量太差。一个线下活动能有 60% 的行为被数字化记录,已经算很不错了。
难点在哪
线下活动建模的几个核心难点:
- 数据采集成本高:线上每个点击自动有日志,线下你得专门部署设备、设计交互流程来采集数据
- 数据不完整:总有人不扫码、不连 WiFi、不用小程序,你的数据永远是有偏的
- 因果推断难:转化率提高了,是因为你换了展位位置,还是因为那天天气好?
- 外部变量多:天气、交通、竞品活动、突发新闻……这些你根本控制不了
三、AI 让建模发生了什么变化
好,现在 AI 来了。ChatGPT、Claude、各种 AutoML 工具,确实让"跑一个模型"变得非常简单。但我们仔细看看,AI 到底能做什么、做不好什么:
| 建模环节 | AI 能做的 | AI 做不好的 |
|---|---|---|
| 定义问题 | 帮你梳理思路、列出可能的建模方向 | 判断哪个问题值得建模、ROI 最高 |
| 数据理解 | 快速做 EDA、发现异常值和分布 | 判断数据的业务含义、识别数据陷阱 |
| 特征工程 | 自动生成大量候选特征 | 构造有业务洞察的关键特征 |
| 模型选择与训练 | AutoML 自动尝试多种模型并调参 | 判断模型假设是否符合业务场景 |
| 结果解读 | 生成模型报告、可视化、SHAP 分析 | 判断结果是否可信、是否可落地 |
| 落地应用 | 生成部署代码、API 封装 | 设计决策流程、处理组织阻力 |
看出规律了吗?
最核心的差距在两头:问题定义和结果落地。 中间那截——数据处理、特征工程、模型训练、报告生成——AI 确实在大幅替代人的工作。
用伪代码来表达就是:
def build_model_old_way():
problem = human_thinks_hard() # 人想:3天
data = human_cleans_data() # 人做:2天
features = human_engineers_features() # 人做:3天
model = human_trains_and_tunes() # 人做:2天
result = human_interprets() # 人想:2天
impact = human_deploys_and_iterates() # 人做:5天+
return impact
def build_model_ai_way():
problem = human_thinks_hard() # 人想:3天(没变)
data = ai_cleans_data() # AI做:2小时
features = ai_engineers_features() # AI做:1小时
model = ai_trains_and_tunes() # AI做:30分钟
result = human_interprets() # 人想:2天(没变)
impact = human_deploys_and_iterates() # 人做:5天+(没变)
return impact
# generated by hugo's coding agent
中间省了一周,但两头加起来还是 10 天。 而且这两头恰恰是决定模型成败的关键。
这就引出了一个关键洞察:AI 降低的是建模的执行成本,不是建模的判断成本。 执行成本从来就不是真正的壁垒——以前也有 scikit-learn、有 AutoML、有各种一键建模工具。真正的壁垒是:你知不知道该建什么模型、结果出来了你信不信、怎么用。
四、Excel 的历史类比
这让我想起 20 年前 Excel 普及时的情景。
那时候也有类似的说法:“有了 Excel,人人都能做数据分析了!“确实,Excel 让做一个图表、跑一个回归变得很容易。但 20 年过去了,真正能用数据驱动决策的人变多了吗?
变多了一些,但没有工具普及的速度那么快。
因为工具降低的是执行成本,不是判断能力。会用 Excel 做透视表的人很多,但知道什么时候该用中位数而不是平均数的人没那么多。能跑出一条回归线的人很多,但知道 R² 高不代表因果关系的人少得多。
AI 时代的建模也是一样。ChatGPT 能帮你 5 分钟跑出一个模型,但它没法帮你回答这些问题:
- 这个问题值得建模吗?还是一个简单的规则就够了?
- 训练数据有没有幸存者偏差?
- 模型在什么条件下会失效?
- 预测结果和实际决策之间的 gap 怎么弥合?
- 模型上线后谁来监控、什么时候该重新训练?
这些问题的答案不在模型里,在你的脑子里。
五、重新定义"建模能力”
所以在 AI 时代,我们需要重新定义"建模能力"到底是什么。
对业务人员来说,建模能力不是会用 Python 或者会调 API,而是:
- 能把业务问题翻译成可量化的目标(“提升复购率” → “预测哪些用户 30 天内会复购”)
- 知道哪些数据可用、哪些数据有坑
- 能判断模型结果是否符合业务直觉
- 能设计 A/B 测试来验证模型效果
对技术人员来说,建模能力不再是会写 PyTorch 或者调参,而是:
- 能理解业务场景并提出合适的建模方案
- 能设计数据采集方案保证数据质量
- 能判断模型的适用边界和失效条件
- 能构建端到端的模型服务,包括监控和迭代
对管理者来说,建模能力是:
- 知道什么问题适合用模型解决、什么问题不适合
- 能评估"建模 vs. 不建模"的 ROI
- 不会被一个漂亮的 R² 唬住
- 能在组织里建立"数据驱动但不数据迷信"的文化
你会发现,这些能力没有一项是 AI 能直接给你的。它们都需要对问题的深度理解、对数据的判断力、和对业务的洞察。
六、结语
回到开头那个运营朋友的故事。后来我帮他重新梳理了一下:
- 先把"预测下周销量"这个问题拆细——是预测总量还是分 SKU?预测是为了备货还是为了排期?
- 把已知的外部变量加进去——天气预报、竞品活动日历、自家推广计划
- 给模型设了一个"信心指标”——当输入数据缺失或异常时,模型会告诉你"这次预测我不太确定"
- 最重要的:定了一个规则,当模型预测和运营直觉差距超过 20% 时,必须人工复核
最后这个模型真正好用了。不是因为算法变了,而是用模型的方式变了。
建模的门槛从来不是算法,一直都是你对问题的理解有多深。AI 帮你跨过了工具的那道坎,但剩下的路——理解问题、判断边界、落地执行——还得你自己走。
工具民主化了,但思维没有。 这才是 AI 时代建模最大的真相。