前OpenAI安全研究副总裁、Thinking Machines Lab联合创始人翁荔(Lilian Weng)在个人技术博客Lil'Log上发表了题为《Scaling Laws, Carefully》的长文,对深度学习领域的核心经验规律——缩放定律进行了系统性梳理。这篇约两万字的文章不仅回顾了缩放定律的发展历程,更以审慎态度指出其在实际应用中存在的潜在陷阱,引发行业广泛关注。
缩放定律的核心发现是:模型规模(参数量N)、数据集规模(Token数D)和计算量(FLOPs,C)的增加会导致训练损失按幂律持续下降,在log-log坐标系中表现为近似直线。这一规律使研究者能够通过小规模实验拟合曲线,进而预测大规模模型的资源需求,成为大模型预训练阶段的关键规划工具。翁荔将缩放定律的发展分为三个阶段:1992年Amari等人利用贝叶斯框架推导出学习曲线的理论奠基;2017年Hestness等人在机器翻译、图像分类等任务中验证泛化误差与数据规模的幂律关系;2020年Kaplan等人首次系统建立语言模型的缩放定律,提出"优先扩大模型规模"的最优缩放关系。
2022年Hoffmann等人发表的Chinchilla论文对Kaplan的结论提出修正。通过固定模型变数据、IsoFLOP分析和参数化拟合三种方法,他们发现模型规模与训练数据应近似同比例增长。实验显示,在相同计算预算下,70B参数、1.4T Token的Chinchilla模型性能全面超过280B参数、300B Token的Gopher模型。这一结果揭示了当时大语言模型普遍存在"训练不足"的问题。翁荔指出,两篇论文看似矛盾,实则源于实验规模差异和参数统计口径不同——Kaplan排除了Token embedding参数,而Chinchilla采用全部参数。2024年Pearce和Song的研究证明,将嵌入层参数纳入计算后,两条缩放曲线可实现统一。
随着高质量训练数据逐渐逼近上限,"数据墙"问题日益凸显。翁荔重点介绍了两项应对研究:2023年Muennighoff等人提出将训练Token拆分为唯一Token数和重复次数,发现重复数据收益呈指数衰减;2026年Lovelace等人则在缩放公式中加入过拟合惩罚项,揭示模型规模越大对重复数据越敏感。这些研究为数据受限条件下的缩放定律提供了新方向,但其理论机制仍待完善。
文章通过Besiroglu等人2024年对Chinchilla方法的复现工作,揭示了缩放定律对实现细节的敏感性。原论文采用L-BFGS-B优化器进行参数拟合,但因目标函数数值尺度过小导致优化提前停止;公开数据仅保留两位有效数字也增加了拟合误差。这些细节最终导致最优模型规模与数据配比的预测出现偏移。翁荔在文中嵌入交互式模拟工具,展示损失精度、噪声水平等参数如何影响缩放曲线和资源预测结果。
当前,缩放定律已成为指导行业资源规划的核心工具。OpenAI、Anthropic等前沿实验室依赖其预测下一代模型的训练成本、参数规模和数据需求。一个Frontier Model的训练成本往往高达数十亿美元,缩放定律的预测能力直接关系到资源配置效率和模型路线合理性。翁荔强调,缩放定律的可靠性取决于对模型参数定义、损失函数拟合、实验规模区间和训练数据假设的充分理解。她通过系统分析不同研究间的分歧与修正,提醒行业在应用缩放定律时需谨慎评估其适用范围和局限性。











