目录:
最近和几个做 AI 的朋友聊天,发现一个有趣的现象:很多人对大模型的信仰是"因为相信所以看见"——相信 AGI 会来,相信 scaling law 会继续有效,相信未来的模型会更强大。
但我的观点恰恰相反:AI 信仰应该建立在"因为看见所以相信"。而我们能看见什么?最直观的就是——高质量数据越多,大模型表现越优秀。这不是信仰,是已经被反复验证的事实。
Scaling Law 的另一面
当人们讨论 Scaling Law 时,往往聚焦在三个维度:
- 模型参数量(Model Size)
- 计算量(Compute)
- 数据量(Data)
但很少人强调一个关键前提:数据质量。
Chinchilla 论文已经告诉我们,最优训练策略不是无脑堆参数,而是让模型大小和训练数据量保持平衡。但"数据量"这个词本身就有误导性——1TB 的垃圾数据,价值可能不如 1GB 的高质量数据。
什么是"高质量数据"?
让我用几个具体例子来说明:
1. 代码数据
- 低质量:爬取的 GitHub 代码,包含大量重复、错误、无注释的代码片段
- 高质量:经过筛选的、有完整测试用例、有清晰文档的开源项目代码
这就是为什么 StarCoder、CodeLlama 等代码模型在训练前要做大量的数据清洗和去重。高质量代码数据能让模型真正理解编程模式,而不是死记硬背。
2. 对话数据
- 低质量:社交媒体上的碎片化对话,充满情绪化表达和逻辑跳跃
- 高质量:经过精心设计的多轮对话,包含清晰的推理过程和问题解决步骤
这就是为什么 Claude、GPT-4 等模型在 RLHF 阶段要投入大量人力标注高质量对话数据。
3. 专业知识数据
- 低质量:维基百科式的百科全书条目
- 高质量:教科书、学术论文、技术文档、专家编写的教程
这就是为什么医疗、法律等垂直领域的模型需要专门的高质量数据训练。
数据质量的"乘数效应"
高质量数据不仅仅是"更好",它会产生乘数效应:
- 更高效的训练:模型用更少的步数收敛,节省计算资源
- 更强的泛化能力:模型学到的是模式,而不是噪声
- 更好的对齐:模型更容易理解人类意图,减少有害输出
反过来,低质量数据会产生"污染效应"——模型会学到错误模式,而且这些错误很难通过后续训练纠正。
数据瓶颈正在显现
现在大模型行业面临的一个核心问题是:高质量数据快用完了。
根据一些研究:
- 高质量文本数据可能在 2026-2030 年间耗尽
- 代码数据相对丰富,但也在快速增长中面临瓶颈
- 多模态数据(图像、视频)的标注成本极高
这就引出了几个关键问题:
- 合成数据能否替代真实数据?
- 数据复用(多次训练同一份数据)是否有上限?
- 小模型 + 高质量数据能否打败大模型 + 低质量数据?
我的判断
基于目前的观察,我有几个判断:
1. 数据质量 > 数据数量
在未来 3-5 年,谁能获取和标注更多高质量数据,谁就能训练出更好的模型。这不是拼算力,是拼数据工程能力。
2. 垂直领域数据是蓝海
通用文本数据快用完了,但垂直领域(医疗、法律、金融、工业)的高质量数据还远未饱和。这也是为什么我看到很多创业公司在做垂直领域模型。
3. 数据飞轮是关键
最好的数据来源是用户交互数据——用户和模型的每一次对话,都是潜在的改进数据。但这里有个前提:模型要足够好,用户才愿意用;用户用得越多,数据越多;数据越多,模型越好。这是一个正向飞轮。
“因为看见所以相信”
回到开头的观点。
为什么我说 AI 信仰应该建立在"因为看见所以相信"?
因为数据质量与模型表现之间的关系是可见的、可测量的、可复现的。我们不需要相信某个玄学的"涌现"理论,不需要相信某个未经验证的 scaling law 外推。我们只需要看数据:
- 用更多高质量数据训练的模型,在 benchmark 上表现更好
- 用更干净数据训练的模型,产生更少幻觉
- 用更专业数据训练的模型,在垂直领域表现更出色
这些是已经发生的事实,不是对未来的预测。
对从业者的启示
如果你在做 AI 相关的工作,我的建议是:
- 重视数据工程:不要只关注模型架构,数据清洗、标注、管理的投入往往回报更高
- 建立数据飞轮:设计产品时考虑如何从用户交互中获取高质量反馈数据
- 专注垂直领域:通用数据竞争太激烈,垂直领域的高质量数据还有很大空间
- 保持怀疑:对那些"只需要更多数据就能解决"的说法保持警惕——数据质量才是关键
结语
AI 行业需要更多务实的人,少一些信仰充值。
高质量数据越多,大模型表现越优秀——这不是信仰,是工程事实。
而我们能做的,就是老老实实地收集、清洗、标注、使用高质量数据,一步一步地把模型做得更好。
因为看见,所以相信。
本文基于个人观察和实践,欢迎讨论。