学习率与批大小Scaling Law的低成本拟合实践
作者信息
作者:新闻整编员
简介:新闻归纳编辑持续跟进把热点素材、正文段落和相关入口统一整理,重点覆盖频道内容更新与资讯页面维护,减少内容拼接感,增强频道化呈现,并根据当期话题做差异化补充。
发布时间:2026-04-28 04:15:18
文章热度
短期波动和长期趋势往往不完全一致。
Scaling Law 长期以来是大模型训练规划的核心工具,用于预测百万美元级预训练在不同规模下的表现。然而,拟合这些定律本身往往需要运行大量 pilot 实验,成本可能轻松达到数百万美元级别,尤其当实验池包含不同计算规模时,随机或均匀采样容易导致预算快速消耗,却难以保证对外推到高成本目标区域的精度。
论文的核心贡献在于把Scaling Law拟合重构为预算感知的序贯实验设计问题。给定一个候选实验池,每个实验成本异质,目标是最大化高成本目标区域的预测准确性。作者提出不确定性感知的主动选择策略,每次迭代优先挑选对目标区域外推最有信息的点,而不是盲目增加数量。这个框架本质上是通过分解目标区域的均方预测误差(MSPE),在盆地辨识和局部精炼之间取得平衡。
大型语言模型的正式训练往往动辄数百万美元预算,团队在启动前习惯依赖Scaling Law来预测参数、数据与计算的最优配比。然而,拟合这些定律所需的Pilot实验本身就可能消耗掉大量算力。传统方法多采用随机采样或经典实验设计,大量小规模跑点铺开,表面上看能覆盖多样性,实际却在高成本目标区域的外推准确性上付出高昂代价。
Scaling Law拟合长期被视为AI实验室规划大模型训练的必备环节,但其本身往往消耗大量计算资源。arXiv上最新论文提出了一种预算感知的主动实验选择方法,将这一过程形式化为预算受限的序贯实验设计。在覆盖8个任务、65个Scaling Law实例的多样benchmark上,该方法仅用约10%的总训练预算,就能让目标高成本区域的外推精度接近全集拟合水平。
在大模型训练预算规划中,Scaling Law 长期扮演着关键决策工具的角色。它帮助团队在千万甚至上亿美元级别的训练跑前,预测模型规模、数据量与性能之间的关系,从而避免盲目投入。但拟合这些规律本身却常常成为另一重成本中心:大量随机 pilot 实验累积起来,动辄消耗数百万美元预算。
论文的核心机制围绕不确定性感知的获取函数展开。它把目标区域的不确定性分解为intra-basin方差减少和inter-basin分歧减少两部分。前者聚焦同一局部最优“盆地”内的预测精炼,后者则处理不同可能盆地间的全局结构分歧。算法综合这两者,并引入成本因子,优先挑选每单位预算带来最大不确定性降低的实验点。这种设计避免了盲目均匀采样,转而让早期实验解决盆地间歧义,后期则转向局部精炼。
这篇论文的核心在于把Scaling Law拟合转化为一个预算感知的决策问题。给定候选实验池且各实验成本异质,目标是最大化高成本目标区域的预测准确率。作者引入不确定性感知的主动策略,每次迭代优先挑选那些对目标区域外推贡献最大的实验点。通过分解目标区域的均方预测误差(MSPE),方法在盆地辨识与局部精炼之间取得平衡,而不是简单增加点数。
论文的核心贡献在于将拟合过程转化为主动学习框架。作者通过分解目标区域的均方预测误差(MSPE),把不确定性拆分为盆地间差异和盆地内方差两部分。前者帮助全局探索不同参数盆地,后者则聚焦局部精炼预测变异。这样,每一步选择都计算候选实验对MSPE的预期减少量,并按成本归一化,真正把预算花在刀刃上。方向是对的,但现实更复杂——如果目标区域定义漂移明显,收益可能打折。
这一点目前行业内仍有不同声音。数据支持主动实验选择的方向,但样本量和任务覆盖仍在扩展中。普通从业者不妨先从开源代码入手,在小规模超参数搜索日志上模拟测试,看看10%预算下的外推精度究竟能提升多少。毕竟,少花钱、多拟合的实用路径,最终还要靠一线实验来验证。
真实benchmark进一步验证了其效率。论文在8类多样scaling-law任务上构建65个实例,涵盖学习率优化、MoE配置、稀疏性设计等场景。在1%、5%、10%预算水平下,主动实验选择持续优于随机、最便宜优先以及D-opt、V-opt等经典基线。在10%预算时,它在多数任务上接近甚至达到全集拟合的性能(以目标区域R²衡量)。前后对比显示,经典方法在外推误差上明显落后,而主动方法通过优先覆盖高信息增益试点,快速收敛到高精度。
数据支持这个趋势,但不同垂直领域的表现仍有明显不同。
固定链接:http://www5.name.ss7a.cn/3281.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。