这个转变值得每一位从业者认真思考。
Scaling Law拟合长期被视为AI实验室规划大模型训练的必备环节,但其本身往往消耗大量计算资源。arXiv上最新论文提出了一种预算感知的主动实验选择方法,将这一过程形式化为预算受限的序贯实验设计。在覆盖8个任务、65个Scaling Law实例的多样benchmark上,该方法仅用约10%的总训练预算,就能让目标高成本区域的外推精度接近全集拟合水平。
后验逼近环节同样值得注意。论文用高斯混合模型近似参数后验,捕捉scaling law中常见的多个“盆”结构,每次新实验完成后立即更新混合权重和协方差,重新计算剩余候选的效用。整个闭环像一个智能投资过程:选实验、跑实验、更新信念、优化目标区域预测。在基准中,这种不确定性感知分配让方法在1%预算时就已超越多数基线,到5%-10%预算时,R²指标和外推误差已接近甚至达到全集拟合水平。
采集函数的设计是方法论中最为锐利的部分。传统不确定性度量仅关注整体参数空间,而论文强调真正重要的是目标区域的预测准确性。他们将不确定性分解为盆内方差(局部预测波动)和盆间分歧(不同scaling趋势间的冲突),并用目标区域MSPE作为核心指标。采集分数则将预期不确定性降低量除以实验成本进行惩罚,避免盲目偏好高价实验。
后验逼近则实现不确定性感知的资源分配。参数后验用高斯混合模型近似,捕捉多个可能的局部最优“盆”,每个盆代表一种scaling趋势。每次新实验完成后,更新混合后验并重新计算候选效用分数,选择得分最高的继续。论文在多个任务和65个scaling law实例上的测试表明,用约10%总预算即可接近全集拟合效果,R²指标大幅提升,外推曲线更贴近真实。方向是对的。
一篇最新arXiv论文《Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection》直击这一痛点。作者团队将Scaling Law拟合重新表述为预算感知的顺序实验设计问题:给定有限候选实验池(成本异质),目标是在预算限制下选择执行哪些实验,以最大化高成本目标区域的外推准确性。
盆地估计机制则是处理Scaling Law多局部最优问题的关键。它采用混合高斯后验逼近多个局部最优,通过聚类识别不同盆地,并用类似BIC的准则赋予权重。这种方式就像在多山地形中先大致定位几个可能的山谷路径,再决定重点采样哪一条,避免在无关坡面上浪费资源。类比来看,要预测高山顶峰温度,却只能在山脚做有限测量,新方法不是撒胡椒面,而是先判断路径,再精准深入,确保对外推目标的可靠支持。
这篇论文《Spend Less, Fit Better》将问题转化为不确定性感知的预算分配任务。方法显式建模Scaling Law参数的后验不确定性,然后根据每个候选实验对减少目标区域预测误差的预期贡献,来动态挑选下一个运行。这种策略不同于经典设计基线,能更精准地聚焦那些对学习率-批大小规律外推最关键的实验点。
主动实验选择方法则提供了Spend Less, Fit Better的路径。该方法将Scaling Law拟合建模为budget-aware sequential experimental design,在有限候选实验池中,针对每个run的异构成本,顺序选择执行顺序以最大化高成本目标区域的外推精度。
在AI大模型训练规划中,Scaling Law早已成为标配,却常常被低估为“烧钱预处理”。过去,工程师们通过随机或均匀采样跑大量pilot实验来拟合曲线,这些实验成本异质性显著:小规模模型相对廉价,而接近目标大模型的实验则贵得离谱。arXiv最新论文《Spend Less, Fit Better》指出,这种传统做法容易在对高成本目标区域外推帮助不大的点上浪费预算,导致pilot阶段就可能消耗数百万美元,却仍无法保证预测精度稳定。
Scaling Law本是帮助团队规划百万美元级大模型训练的关键工具,通过小规模实验外推大规模性能,避免盲目投入。但在实际操作中,拟合Scaling Law本身往往就成为一个不小的预算黑洞,尤其当需要收集多样化的pilot实验来确保可靠外推时。
% 和 7%。这个对比说明了紧迫性。