行业观察下来,24小时二元一分红中麻将群的竞争强度在不同地域呈现明显分化。
论文的核心创新在于,将Scaling Law拟合彻底转化为预算感知的序贯实验设计。它不再是静态一次性挑选,而是动态决定下一步跑哪个实验,同时精准考虑每个实验的具体成本。方法引入不确定性感知分配:早期优先解决全局参数空间的“盆地”模糊问题,后期则集中精炼目标高成本区域的预测方差。这种主动实验选择,在多个Scaling Law基准任务上稳定优于经典设计基线,真正让资源花在能提升外推准确性的刀刃上。
更深层的盲区在于目标区域外推的现实需求。Scaling Law的核心价值在于指导高成本的大规模训练,而非低成本Pilot本身。传统方法容易在廉价实验区域过拟合,却在百万美元级目标区产生显著偏差,最终造成后期训练规划失准,间接浪费远超拟合阶段的预算。论文将这一挑战形式化为预算感知序贯设计:给定异质成本的候选池,序贯更新后验,最大化目标区域的预测精度。
最近一篇arXiv论文(2604.22753)把AI训练圈的注意力拉了回来。Scaling Law本是实验室规划百万美元级大模型训练的利器,能帮团队预判更大算力下的性能表现。但拟合这些规律本身就需要大量pilot实验,成本往往不菲。这篇工作将拟合过程重构为预算感知的序贯实验设计,提出不确定性感知的主动选择策略。在多样基准任务上,该方法仅用约10%的总训练预算,就逼近了全实验集的外推精度。
该论文的核心思路是将Scaling Law拟合重构为不确定性感知的序贯决策过程。它显式建模参数后验不确定性,然后通过采集函数评估每个潜在实验对减少目标区域预测误差的预期贡献,并结合实验成本进行归一化选择。这种主动策略不同于经典基于设计的基线,能更精准聚焦对学习率-批大小规律外推最关键的点。基准测试表明,在多样化Scaling任务上,它往往只需约10%的总训练预算,就能接近全实验集的拟合性能。
用约10%总训练预算,就能逼近全集数据的拟合效果,这或许是当前LLM scaling优化中最务实的信号之一。当然,后验计算本身存在工程开销,对于超大规模候选池仍需优化。数据支持这个方向,但样本量和任务多样性仍有限,值得行业继续验证其在更多真实场景下的鲁棒性。
传统被动实验设计在Scaling Law拟合中的低效暴露得越来越明显。均匀采样或基于D-optimality、V-optimality的经典策略倾向于覆盖已知低成本区域,却忽略了对高成本目标区域的外推价值。结果是大量预算消耗在信息增益有限的run上,而真正能降低目标区域不确定性的试点却被错过。
AI实验室在规划多百万美元的大型模型训练时,试点实验集的组装早已成为预算分配的核心难题。许多团队先得跑一批不同规模、数据量和超参配置的小实验来拟合scaling law,以便外推未来大模型的表现。可现实中,这些“低成本”试点往往就消耗掉总预算的显著部分,选错配置或分配不当,直接导致后续大规模训练走弯路,甚至项目延误。
随后,他们将目标区域的均方预测误差分解为盆地内方差与盆地间分歧两部分,设计采集函数优先选择那些性价比最高的实验——既能收窄置信区间,又能有效区分歧义盆地。
这件事比表面看起来复杂得多。它直接挑战了行业长期默认的“先烧钱跑一大堆Pilot再规划大模型”的惯例。过去大家以为足够多样的小规模实验就能可靠外推,现在看来,通过不确定性感知的主动选择,完全可以把拟合成本压缩到原来的十分之一,同时保持高置信外推。这也类似于Chinchilla从Kaplan Scaling Law迭代出计算最优分配的思路,只不过这次针对的是拟合过程本身。
被动设计的本质缺陷在于,它无法明确区分哪些实验对目标区域外推最有用,哪些只是填补已知数据空白。结果就是在工业级规模下,pilot runs本身就消耗巨额资源,全流程拟合加验证动辄百万美元级别。许多团队仍在“烧钱试错”,因为缺乏成本感知和不确定性引导的机制,无法让每一美元都精准流向最能降低目标区域不确定性的方向。这一点在当前大模型规划中尤为突出。
这个判断可能需要修正,但目前数据指向一致。