翁荔最新长文深度剖析：AI行业奉为圭臬的缩放定律，应用需谨慎-汽车出行-发现者网

发现商业评论旗下

洞察商业启迪未来

前OpenAI安全研究副总裁、Thinking Machines Lab联合创始人翁荔（Lilian Weng）在个人技术博客Lil'Log上发表了题为《Scaling Laws, Carefully》的长文，对深度学习领域的核心经验规律——缩放定律进行了系统性梳理。这篇约两万字的文章不仅回顾了缩放定律的发展历程，更以审慎态度指出其在实际应用中存在的潜在陷阱，引发行业广泛关注。

缩放定律的核心发现是：模型规模（参数量N）、数据集规模（Token数D）和计算量（FLOPs，C）的增加会导致训练损失按幂律持续下降，在log-log坐标系中表现为近似直线。这一规律使研究者能够通过小规模实验拟合曲线，进而预测大规模模型的资源需求，成为大模型预训练阶段的关键规划工具。翁荔将缩放定律的发展分为三个阶段：1992年Amari等人利用贝叶斯框架推导出学习曲线的理论奠基；2017年Hestness等人在机器翻译、图像分类等任务中验证泛化误差与数据规模的幂律关系；2020年Kaplan等人首次系统建立语言模型的缩放定律，提出"优先扩大模型规模"的最优缩放关系。

2022年Hoffmann等人发表的Chinchilla论文对Kaplan的结论提出修正。通过固定模型变数据、IsoFLOP分析和参数化拟合三种方法，他们发现模型规模与训练数据应近似同比例增长。实验显示，在相同计算预算下，70B参数、1.4T Token的Chinchilla模型性能全面超过280B参数、300B Token的Gopher模型。这一结果揭示了当时大语言模型普遍存在"训练不足"的问题。翁荔指出，两篇论文看似矛盾，实则源于实验规模差异和参数统计口径不同——Kaplan排除了Token embedding参数，而Chinchilla采用全部参数。2024年Pearce和Song的研究证明，将嵌入层参数纳入计算后，两条缩放曲线可实现统一。

随着高质量训练数据逐渐逼近上限，"数据墙"问题日益凸显。翁荔重点介绍了两项应对研究：2023年Muennighoff等人提出将训练Token拆分为唯一Token数和重复次数，发现重复数据收益呈指数衰减；2026年Lovelace等人则在缩放公式中加入过拟合惩罚项，揭示模型规模越大对重复数据越敏感。这些研究为数据受限条件下的缩放定律提供了新方向，但其理论机制仍待完善。

文章通过Besiroglu等人2024年对Chinchilla方法的复现工作，揭示了缩放定律对实现细节的敏感性。原论文采用L-BFGS-B优化器进行参数拟合，但因目标函数数值尺度过小导致优化提前停止；公开数据仅保留两位有效数字也增加了拟合误差。这些细节最终导致最优模型规模与数据配比的预测出现偏移。翁荔在文中嵌入交互式模拟工具，展示损失精度、噪声水平等参数如何影响缩放曲线和资源预测结果。

当前，缩放定律已成为指导行业资源规划的核心工具。OpenAI、Anthropic等前沿实验室依赖其预测下一代模型的训练成本、参数规模和数据需求。一个Frontier Model的训练成本往往高达数十亿美元，缩放定律的预测能力直接关系到资源配置效率和模型路线合理性。翁荔强调，缩放定律的可靠性取决于对模型参数定义、损失函数拟合、实验规模区间和训练数据假设的充分理解。她通过系统分析不同研究间的分歧与修正，提醒行业在应用缩放定律时需谨慎评估其适用范围和局限性。

这是目前已完成完整虚拟展开的赫库兰尼姆卷轴中最古老的一卷，探讨了伦理、艺术和人类行为。在这次成果突破后，维苏威挑战赛设立了一个新奖项：任何个人或团队，只要能在未来一年内完整解读一份赫库兰尼姆维苏威古卷轴，即…

画面里，有人递了瓶东鹏特饮给东鹏饮料（605499.SH)董事长林木勤，但林木勤摆手拒绝并称"我平时不喝这个，喝别的。 6月27日晚，张雪机车创始人张雪亦发布澄清视频，称梗出自他请东鹏饮料董事、联席总裁蒋薇薇…

作为ChatGPT和Codex等产品的背后推手，该公司致力于掌控其模型与产品所依赖的完整技术栈，从而降低对英伟达等外部供应商的依赖，并通过垂直整合在性能或效率上获得潜在优势。 A：根据OpenAI和Broad…

党彦宝讲到，材料是引领时代变革和推动社会发展的重要支撑，要从市场、科研、成本三个维度系统发力，才能全方位重塑产业发展底座。绿色化研发往往伴随成本上升的现实挑战，实现科研创新与成本可控的有机平衡，是必须破解的…

本次大会标志着OneGrowth全球合作计划完成了从生态搭建到细分赛道深耕的战略进阶，中国电信将持续发挥云网融合、跨境广覆盖的独特优势，秉持“共创、共享、共治、共赢”核心合作理念，筑算力根基、拓云网骨干、创…

适用人群与场景科大讯飞P30 Turbo的设计理念非常适合小学生到高中生的学习需求，尤其是对于那些在学习中需要额外帮助的孩子。综上所述，科大讯飞人工智能学习机P30 Turbo凭借其护眼设计、强大的AI辅导…

快科技6月28日消息，近日一段所谓“内部饭局视频”在网络上疯传，画面中有人递了一瓶东鹏特饮给东鹏饮料创始人林木勤，林木勤摆手拒绝并称“我平时不喝这个，喝别的”。张雪表示，网传视频中的对话实际上出自自己请东鹏…

华为常务董事、终端BG董事长余承东站上舞台，前20分钟一直照着提词器逐字念稿。

xLight 的“寄生式创新”策略一方面高度聚焦研发资源，绕过整机系统设计、镜片光学、机械精密对准等衍生技术挑战；但反过来，这让公司命运与ASML 的接纳度高度绑定，如果 ASML 在 LPP 路线上实现…

发现者网 - 深度洞察行业动态引领市场先锋平台 - 发现商业评论旗下网站北京·通州天津·滨海山东·济南
发现者网（www.fxw.com.cn）所有稿件免费开放转载，转载请务必保留版权。
合作微信：netspread（注明:发现者网）
Copyright © FXW 2012-2023 www.fxw.com.cn All rights reserved. 鲁ICP备2022032383号-3 鲁公网安备37010202700500号