高质量数据越多,大模型表现越优秀

AI 信仰建立在因为看见所以相信

目录:

最近和几个做 AI 的朋友聊天,发现一个有趣的现象:很多人对大模型的信仰是"因为相信所以看见"——相信 AGI 会来,相信 scaling law 会继续有效,相信未来的模型会更强大。

但我的观点恰恰相反:AI 信仰应该建立在"因为看见所以相信"。而我们能看见什么?最直观的就是——高质量数据越多,大模型表现越优秀。这不是信仰,是已经被反复验证的事实。

Scaling Law 的另一面

当人们讨论 Scaling Law 时,往往聚焦在三个维度:

  1. 模型参数量(Model Size)
  2. 计算量(Compute)
  3. 数据量(Data)

但很少人强调一个关键前提:数据质量

Chinchilla 论文已经告诉我们,最优训练策略不是无脑堆参数,而是让模型大小和训练数据量保持平衡。但"数据量"这个词本身就有误导性——1TB 的垃圾数据,价值可能不如 1GB 的高质量数据

什么是"高质量数据"?

让我用几个具体例子来说明:

1. 代码数据

  • 低质量:爬取的 GitHub 代码,包含大量重复、错误、无注释的代码片段
  • 高质量:经过筛选的、有完整测试用例、有清晰文档的开源项目代码

这就是为什么 StarCoder、CodeLlama 等代码模型在训练前要做大量的数据清洗和去重。高质量代码数据能让模型真正理解编程模式,而不是死记硬背。

2. 对话数据

  • 低质量:社交媒体上的碎片化对话,充满情绪化表达和逻辑跳跃
  • 高质量:经过精心设计的多轮对话,包含清晰的推理过程和问题解决步骤

这就是为什么 Claude、GPT-4 等模型在 RLHF 阶段要投入大量人力标注高质量对话数据。

3. 专业知识数据

  • 低质量:维基百科式的百科全书条目
  • 高质量:教科书、学术论文、技术文档、专家编写的教程

这就是为什么医疗、法律等垂直领域的模型需要专门的高质量数据训练。

数据质量的"乘数效应"

高质量数据不仅仅是"更好",它会产生乘数效应

  1. 更高效的训练:模型用更少的步数收敛,节省计算资源
  2. 更强的泛化能力:模型学到的是模式,而不是噪声
  3. 更好的对齐:模型更容易理解人类意图,减少有害输出

反过来,低质量数据会产生"污染效应"——模型会学到错误模式,而且这些错误很难通过后续训练纠正。

数据瓶颈正在显现

现在大模型行业面临的一个核心问题是:高质量数据快用完了

根据一些研究:

  • 高质量文本数据可能在 2026-2030 年间耗尽
  • 代码数据相对丰富,但也在快速增长中面临瓶颈
  • 多模态数据(图像、视频)的标注成本极高

这就引出了几个关键问题:

  1. 合成数据能否替代真实数据?
  2. 数据复用(多次训练同一份数据)是否有上限?
  3. 小模型 + 高质量数据能否打败大模型 + 低质量数据

我的判断

基于目前的观察,我有几个判断:

1. 数据质量 > 数据数量

在未来 3-5 年,谁能获取和标注更多高质量数据,谁就能训练出更好的模型。这不是拼算力,是拼数据工程能力。

2. 垂直领域数据是蓝海

通用文本数据快用完了,但垂直领域(医疗、法律、金融、工业)的高质量数据还远未饱和。这也是为什么我看到很多创业公司在做垂直领域模型。

3. 数据飞轮是关键

最好的数据来源是用户交互数据——用户和模型的每一次对话,都是潜在的改进数据。但这里有个前提:模型要足够好,用户才愿意用;用户用得越多,数据越多;数据越多,模型越好。这是一个正向飞轮。

“因为看见所以相信”

回到开头的观点。

为什么我说 AI 信仰应该建立在"因为看见所以相信"?

因为数据质量与模型表现之间的关系是可见的、可测量的、可复现的。我们不需要相信某个玄学的"涌现"理论,不需要相信某个未经验证的 scaling law 外推。我们只需要看数据:

  • 用更多高质量数据训练的模型,在 benchmark 上表现更好
  • 用更干净数据训练的模型,产生更少幻觉
  • 用更专业数据训练的模型,在垂直领域表现更出色

这些是已经发生的事实,不是对未来的预测。

对从业者的启示

如果你在做 AI 相关的工作,我的建议是:

  1. 重视数据工程:不要只关注模型架构,数据清洗、标注、管理的投入往往回报更高
  2. 建立数据飞轮:设计产品时考虑如何从用户交互中获取高质量反馈数据
  3. 专注垂直领域:通用数据竞争太激烈,垂直领域的高质量数据还有很大空间
  4. 保持怀疑:对那些"只需要更多数据就能解决"的说法保持警惕——数据质量才是关键

结语

AI 行业需要更多务实的人,少一些信仰充值。

高质量数据越多,大模型表现越优秀——这不是信仰,是工程事实。

而我们能做的,就是老老实实地收集、清洗、标注、使用高质量数据,一步一步地把模型做得更好。

因为看见,所以相信。


本文基于个人观察和实践,欢迎讨论。


See also