高质量数据越多，大模型表现越优秀

Scaling Law 的另一面

当人们讨论 Scaling Law 时，往往聚焦在三个维度：

模型参数量（Model Size）
计算量（Compute）
数据量（Data）

但很少人强调一个关键前提：数据质量。

Chinchilla 论文已经告诉我们，最优训练策略不是无脑堆参数，而是让模型大小和训练数据量保持平衡。但"数据量"这个词本身就有误导性——1TB 的垃圾数据，价值可能不如 1GB 的高质量数据。

什么是"高质量数据"？

让我用几个具体例子来说明：

1. 代码数据

低质量：爬取的 GitHub 代码，包含大量重复、错误、无注释的代码片段
高质量：经过筛选的、有完整测试用例、有清晰文档的开源项目代码

这就是为什么 StarCoder、CodeLlama 等代码模型在训练前要做大量的数据清洗和去重。高质量代码数据能让模型真正理解编程模式，而不是死记硬背。

2. 对话数据

低质量：社交媒体上的碎片化对话，充满情绪化表达和逻辑跳跃
高质量：经过精心设计的多轮对话，包含清晰的推理过程和问题解决步骤

这就是为什么 Claude、GPT-4 等模型在 RLHF 阶段要投入大量人力标注高质量对话数据。

3. 专业知识数据

低质量：维基百科式的百科全书条目
高质量：教科书、学术论文、技术文档、专家编写的教程

这就是为什么医疗、法律等垂直领域的模型需要专门的高质量数据训练。

数据质量的"乘数效应"

高质量数据不仅仅是"更好"，它会产生乘数效应：

更高效的训练：模型用更少的步数收敛，节省计算资源
更强的泛化能力：模型学到的是模式，而不是噪声
更好的对齐：模型更容易理解人类意图，减少有害输出

反过来，低质量数据会产生"污染效应"——模型会学到错误模式，而且这些错误很难通过后续训练纠正。

数据瓶颈正在显现

现在大模型行业面临的一个核心问题是：高质量数据快用完了。

根据一些研究：

高质量文本数据可能在 2026-2030 年间耗尽
代码数据相对丰富，但也在快速增长中面临瓶颈
多模态数据（图像、视频）的标注成本极高

这就引出了几个关键问题：

合成数据能否替代真实数据？
数据复用（多次训练同一份数据）是否有上限？
小模型 + 高质量数据能否打败大模型 + 低质量数据？

我的判断

基于目前的观察，我有几个判断：

1. 数据质量 > 数据数量

在未来 3-5 年，谁能获取和标注更多高质量数据，谁就能训练出更好的模型。这不是拼算力，是拼数据工程能力。

2. 垂直领域数据是蓝海

通用文本数据快用完了，但垂直领域（医疗、法律、金融、工业）的高质量数据还远未饱和。这也是为什么我看到很多创业公司在做垂直领域模型。

3. 数据飞轮是关键

最好的数据来源是用户交互数据——用户和模型的每一次对话，都是潜在的改进数据。但这里有个前提：模型要足够好，用户才愿意用；用户用得越多，数据越多；数据越多，模型越好。这是一个正向飞轮。

“因为看见所以相信”

回到开头的观点。

为什么我说 AI 信仰应该建立在"因为看见所以相信"？

因为数据质量与模型表现之间的关系是可见的、可测量的、可复现的。我们不需要相信某个玄学的"涌现"理论，不需要相信某个未经验证的 scaling law 外推。我们只需要看数据：

用更多高质量数据训练的模型，在 benchmark 上表现更好
用更干净数据训练的模型，产生更少幻觉
用更专业数据训练的模型，在垂直领域表现更出色

这些是已经发生的事实，不是对未来的预测。

对从业者的启示

如果你在做 AI 相关的工作，我的建议是：

重视数据工程：不要只关注模型架构，数据清洗、标注、管理的投入往往回报更高
建立数据飞轮：设计产品时考虑如何从用户交互中获取高质量反馈数据
专注垂直领域：通用数据竞争太激烈，垂直领域的高质量数据还有很大空间
保持怀疑：对那些"只需要更多数据就能解决"的说法保持警惕——数据质量才是关键

结语

AI 行业需要更多务实的人，少一些信仰充值。

高质量数据越多，大模型表现越优秀——这不是信仰，是工程事实。

而我们能做的，就是老老实实地收集、清洗、标注、使用高质量数据，一步一步地把模型做得更好。

因为看见，所以相信。

本文基于个人观察和实践，欢迎讨论。