AI大模型训练预算节省新招:用10%成本拟合更准Scaling Law
作者信息
作者:专题快编组
简介:话题观察编辑负责把热点素材、正文段落和相关入口统一整理,重点覆盖正文素材复核与延伸阅读整理,让内容更新更适合批量文章页使用。
发布时间:2026-04-28 04:14:20
文章热度
过去几个月,提高全局观的竞争重点正从“覆盖”转向“提炼”。
通过提出一种不确定性感知的方法,该方法能顺序分配实验预算,优先挑选对目标高成本区域外推最有帮助的实验,同时兼顾成本惩罚和方差减少。结果显示,在多样化的Scaling Law任务基准上,这种主动实验选择方法持续优于经典基线,往往仅用约10%的总训练预算,就能接近使用全量实验集拟合的外推性能。70%和10%,这个剪刀差说明一切。
从行业观察来看,大模型时代的成本压力已让单纯堆算力探索超参数变得不现实。学习率如何随批大小缩放、固定计算预算下的最优批大小路径,这些问题若每次都靠全量验证,预算很快见底。这项工作切中痛点:它不是简单压缩实验数量,而是通过更智能的选择,让每一分预算都产生最大外推价值。值得持续跟踪的是,在更复杂的工业噪声场景下,该方法的鲁棒性究竟如何。
这一点目前行业内仍有不同声音。如果目标区域的外推需求涉及更多异质成本维度,当前成本感知模型的效果可能打折;反之,当主动实验选择方法在社区普及并进一步迭代,整个训练预算的利用率有望显著提升。值得持续跟踪,现在下结论为时尚早。
这篇arXiv论文(2604.22753)将Scaling Law拟合重构为预算感知的序贯实验设计问题。给定一个候选实验池,每个实验成本异质,方法不再是均匀分配预算,而是顺序挑选那些最能提升目标高成本区域外推精度的跑点。在涵盖预训练超参、数据分配、MoE架构等多类任务的基准上,仅用约10%的总训练预算,就能接近全实验集的性能表现。
大型语言模型训练往往动辄耗费数百万美元预算,团队在正式大规模跑实验前,习惯依赖Scaling Law来预测参数、数据与计算的最优配比。但拟合这些Scaling Law本身就需要大量Pilot实验,成本迅速累积,已成为不容忽视的预算黑洞。传统方法多采用随机采样或经典实验设计,均匀撒网式运行小规模训练,结果效率低下,外推到目标大模型区域时偏差明显。
然而,非线性Scaling Law中普遍存在的多盆地问题让这种策略的效率大打折扣。从不同参数初始化出发,拟合可能收敛到多个局部最优“盆地”,它们在低成本区域表现接近,但在外推到目标高成本区时行为差异显著。arXiv新论文《Spend Less, Fit Better》指出,这类弱可识别方向会导致外推误差放大,传统随机堆实验往往在预算上事倍功半。
在多样化的Scaling Law任务基准上,这种主动方法一致优于经典设计基线。它往往只需全部预算的10%左右,就能逼近完整实验集的拟合性能。这意味着原本可能耗资百万的探索过程,现在可以用十分之一的资源完成,显著降低了学习率和批大小规律的获取门槛。
传统Scaling Law拟合痛点突出。业界常用均匀采样或经典D-optimal、V-optimal设计,这些方法在参数估计上有理论基础,却忽略了实验成本的巨大差异。有些小规模配置成本低廉,而接近目标规模的run却昂贵数十倍。结果是信息效率低下:数据点积累不少,但对决策关键的外推精度提升有限。许多从业者反馈,盲目扩展pilot集容易陷入低回报循环。
大家都知道用小模型实验外推大模型性能的价值。但行业讨论多聚焦Scaling Law是否会失效或数据墙问题,却很少触及拟合过程本身的预算黑洞。主流观点存在明显盲区,它们忽略了实验成本的异质性,以及外推准确性在真正高成本大模型区域的优先级。结果是,许多团队在pilot阶段就浪费了大量资源,却没有显著提升目标区域的预测可靠性。
作者团队将参数后验近似为多个“盆地”的混合高斯分布,这些盆地捕捉不同的局部最优和外推行为。每次迭代时,算法计算每个候选实验对目标区域均方预测误差降低的贡献,再除以其成本,选出性价比最高的。早期侧重消除不同外推假设间的分歧,后期则聚焦精炼局部趋势。这种自适应选择,让预算真正用在刀刃上。
最新1元1分红中麻将群的落地,更多考验企业的系统协同能力、资源配置效率、执行节奏把控与长期坚持决心。
固定链接:http://www5.name.ss7a.cn/3171.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。