AI 时代,人人都能建模了吗?

工具民主化了,但建模思维没有

目录:

上周有个做运营的朋友拿着一个 AI 帮他建的销量预测模型来找我,特别兴奋:“你看,R² = 0.89,是不是挺准的?”

我看了一眼,模型确实跑得不错。历史数据拟合得很好,特征工程也挺合理——用了过去 30 天的销量趋势、星期几、是否节假日。

我问他:“下周要下一整周的雨,你的模型知道吗?”

他愣了一下。

我又问:“竞品下周搞 618 预热大促,你的模型考虑了吗?你们市场部刚换了投放渠道,从抖音换到了小红书,这个变量在哪?”

他沉默了。

模型没有错。R² = 0.89 是真的。但这个模型不知道自己不知道什么。更要命的是,用这个模型的人也不知道。

这就是我今天想聊的事:AI 让建模的门槛低了,但这不等于人人都能建好模。

一、万事万物皆可建模?

先聊一个更底层的问题:到底什么东西可以建模?

支持的理由

从认知科学的角度看,建模本身就是人类理解世界的基本方式。你说"明天可能下雨",这就是一个模型——基于历史经验和当前观察做出的预测。小孩学说话、司机判断路况、医生看片子,本质上都在"建模"。

从数学角度看,万能近似定理(Universal Approximation Theorem)告诉我们,一个足够大的神经网络可以逼近任意连续函数。理论上,只要数据够多、模型够大,几乎什么关系都能拟合。

从历史来看,建模的边界一直在扩展。100 年前我们觉得天气不可预测,现在 3 天内的天气预报准确率超过 90%。20 年前我们觉得围棋不可能被计算机攻破,现在 AlphaGo 已经是历史了。

质疑与边界

但事情没那么简单。

George Box 说过一句名言:“All models are wrong, but some are useful.” 所有模型都是对现实的简化,关键是简化到什么程度还有用。

混沌系统给建模设了一个硬上限。三体问题、湍流、股市——这些系统对初始条件极度敏感,长期预测在物理层面就不可能精确。你可以建模,但精度有天花板。

哥德尔不完备定理告诉我们,任何足够强大的形式系统都存在不能被证明的真命题。换到建模的语境里:总有一些关系是你的模型框架无法捕捉的。

还有感受质(Qualia)问题——你怎么建模一个人吃到妈妈做的红烧肉时的幸福感?你可以测心率、测脑电波、测面部表情,但那些数字幸福感吗?

结论

任何事物都可以被建模,只是精度、成本和实用性不同。

关键的判断不是"能不能建",而是"建出来有没有用"、“付出的成本值不值”、“精度够不够支撑决策”。这个判断本身,就需要建模思维。

二、线下活动怎么建模——一个具体的例子

抽象讨论太空,我们来看一个具体场景:一个线下市集活动,怎么建模?

实体建模:先把世界拆开

建模的第一步是定义你的"世界"由哪些实体组成:

活动 Activity
├── 人群 Audience(目标用户画像、预估到场人数)
├── 场景 Venue(场地类型、容量、动线)
├── 流程 Schedule(时间轴、环节设计)
├── 资源 Resource(人力、物料、预算)
├── 规则 Rule(参与条件、积分规则、转化路径)
└── 结果 Outcome(到场率、转化率、ROI)
# generated by hugo's coding agent

这一步看起来简单,但**选择建模哪些实体、忽略哪些实体,就已经是最核心的建模决策了。**你把天气建进去和不建进去,模型的实用性可能差一个量级。

用户参与漏斗:从曝光到复购

线下活动最有价值的模型之一是用户参与漏斗:

曝光 → 注意 → 兴趣 → 到场 → 参与 → 留存 → 转化 → 复购

每个环节都需要不同的数字化手段来采集数据:

环节数字化手段数据质量
曝光广告平台曝光数据高,但有注水
注意点击率、停留时长中等
兴趣预约/报名数据较高
到场扫码签到、WiFi 探针
参与互动打卡、小程序行为取决于设计
留存关注公众号/加企微
转化下单/付款
复购CRM 追踪中等,归因难

你会发现,越靠前的环节数据越虚,越靠后的环节数据越实但量越少。这就是建模的典型困境:你最想预测的东西,往往数据最稀缺。

数字化四层架构

如果要系统性地做线下活动的数字化建模,可以分四层来想:

  • 记录层:把发生的事情数字化记录下来。扫码签到、消费流水、互动日志。
  • 分析层:从记录中发现模式。哪些渠道的到场转化率最高?什么时间段互动最活跃?
  • 优化层:基于分析做出更好的决策。动态调整展位位置、实时推送优惠券。
  • 自动化层:让决策自动执行。基于人流热力图自动调整引导员位置。

大多数团队卡在第一层和第二层之间。不是不想做,而是数据采集的成本太高、数据质量太差。一个线下活动能有 60% 的行为被数字化记录,已经算很不错了。

难点在哪

线下活动建模的几个核心难点:

  1. 数据采集成本高:线上每个点击自动有日志,线下你得专门部署设备、设计交互流程来采集数据
  2. 数据不完整:总有人不扫码、不连 WiFi、不用小程序,你的数据永远是有偏的
  3. 因果推断难:转化率提高了,是因为你换了展位位置,还是因为那天天气好?
  4. 外部变量多:天气、交通、竞品活动、突发新闻……这些你根本控制不了

三、AI 让建模发生了什么变化

好,现在 AI 来了。ChatGPT、Claude、各种 AutoML 工具,确实让"跑一个模型"变得非常简单。但我们仔细看看,AI 到底能做什么、做不好什么:

建模环节AI 能做的AI 做不好的
定义问题帮你梳理思路、列出可能的建模方向判断哪个问题值得建模、ROI 最高
数据理解快速做 EDA、发现异常值和分布判断数据的业务含义、识别数据陷阱
特征工程自动生成大量候选特征构造有业务洞察的关键特征
模型选择与训练AutoML 自动尝试多种模型并调参判断模型假设是否符合业务场景
结果解读生成模型报告、可视化、SHAP 分析判断结果是否可信、是否可落地
落地应用生成部署代码、API 封装设计决策流程、处理组织阻力

看出规律了吗?

最核心的差距在两头:问题定义和结果落地。 中间那截——数据处理、特征工程、模型训练、报告生成——AI 确实在大幅替代人的工作。

用伪代码来表达就是:

def build_model_old_way():
    problem = human_thinks_hard()           # 人想:3天
    data = human_cleans_data()              # 人做:2天
    features = human_engineers_features()   # 人做:3天
    model = human_trains_and_tunes()        # 人做:2天
    result = human_interprets()             # 人想:2天
    impact = human_deploys_and_iterates()   # 人做:5天+
    return impact

def build_model_ai_way():
    problem = human_thinks_hard()           # 人想:3天(没变)
    data = ai_cleans_data()                 # AI做:2小时
    features = ai_engineers_features()      # AI做:1小时
    model = ai_trains_and_tunes()           # AI做:30分钟
    result = human_interprets()             # 人想:2天(没变)
    impact = human_deploys_and_iterates()   # 人做:5天+(没变)
    return impact
# generated by hugo's coding agent

中间省了一周,但两头加起来还是 10 天。 而且这两头恰恰是决定模型成败的关键。

这就引出了一个关键洞察:AI 降低的是建模的执行成本,不是建模的判断成本。 执行成本从来就不是真正的壁垒——以前也有 scikit-learn、有 AutoML、有各种一键建模工具。真正的壁垒是:你知不知道该建什么模型、结果出来了你信不信、怎么用。

四、Excel 的历史类比

这让我想起 20 年前 Excel 普及时的情景。

那时候也有类似的说法:“有了 Excel,人人都能做数据分析了!“确实,Excel 让做一个图表、跑一个回归变得很容易。但 20 年过去了,真正能用数据驱动决策的人变多了吗?

变多了一些,但没有工具普及的速度那么快。

因为工具降低的是执行成本,不是判断能力。会用 Excel 做透视表的人很多,但知道什么时候该用中位数而不是平均数的人没那么多。能跑出一条回归线的人很多,但知道 R² 高不代表因果关系的人少得多。

AI 时代的建模也是一样。ChatGPT 能帮你 5 分钟跑出一个模型,但它没法帮你回答这些问题:

  • 这个问题值得建模吗?还是一个简单的规则就够了?
  • 训练数据有没有幸存者偏差?
  • 模型在什么条件下会失效?
  • 预测结果和实际决策之间的 gap 怎么弥合?
  • 模型上线后谁来监控、什么时候该重新训练?

这些问题的答案不在模型里,在你的脑子里。

五、重新定义"建模能力”

所以在 AI 时代,我们需要重新定义"建模能力"到底是什么。

对业务人员来说,建模能力不是会用 Python 或者会调 API,而是:

  • 能把业务问题翻译成可量化的目标(“提升复购率” → “预测哪些用户 30 天内会复购”)
  • 知道哪些数据可用、哪些数据有坑
  • 能判断模型结果是否符合业务直觉
  • 能设计 A/B 测试来验证模型效果

对技术人员来说,建模能力不再是会写 PyTorch 或者调参,而是:

  • 能理解业务场景并提出合适的建模方案
  • 能设计数据采集方案保证数据质量
  • 能判断模型的适用边界和失效条件
  • 能构建端到端的模型服务,包括监控和迭代

对管理者来说,建模能力是:

  • 知道什么问题适合用模型解决、什么问题不适合
  • 能评估"建模 vs. 不建模"的 ROI
  • 不会被一个漂亮的 R² 唬住
  • 能在组织里建立"数据驱动但不数据迷信"的文化

你会发现,这些能力没有一项是 AI 能直接给你的。它们都需要对问题的深度理解对数据的判断力、和对业务的洞察

六、结语

回到开头那个运营朋友的故事。后来我帮他重新梳理了一下:

  1. 先把"预测下周销量"这个问题拆细——是预测总量还是分 SKU?预测是为了备货还是为了排期?
  2. 把已知的外部变量加进去——天气预报、竞品活动日历、自家推广计划
  3. 给模型设了一个"信心指标”——当输入数据缺失或异常时,模型会告诉你"这次预测我不太确定"
  4. 最重要的:定了一个规则,当模型预测和运营直觉差距超过 20% 时,必须人工复核

最后这个模型真正好用了。不是因为算法变了,而是用模型的方式变了

建模的门槛从来不是算法,一直都是你对问题的理解有多深。AI 帮你跨过了工具的那道坎,但剩下的路——理解问题、判断边界、落地执行——还得你自己走。

工具民主化了,但思维没有。 这才是 AI 时代建模最大的真相。


See also