单纯的技术覆盖已无法完全解决问题。
在构建的多样化基准上(涵盖预训练、MoE、超参调优等 65 个 Scaling Law 实例),主动方法用约 10% 的总预算即可接近甚至匹配全实验集的外推性能。这为当前大模型团队的 pilot 阶段提供了切实的优化路径,尤其当目标区域成本极高或实验池差异显著时,优势更为明显。当然,如果实验池相对同质或任务复杂度较低,传统方法与主动设计的差距可能缩小,值得持续跟踪验证。
相比传统基线,论文在涵盖多个任务的多样基准上进行了验证。结果显示,新方法在低预算regime下表现突出,尤其适合当前AI训练成本高企的现实环境。它呼应了active learning的整体趋势——不是被动收集数据,而是主动选择最有信息量的样本。70%和10%,这个剪刀差说明一切。
大多数从业者看到的是“10%预算接近全性能”这个直观亮点。主流观点认为,Scaling Law拟合必须依赖足够多的实验点来保障外推可靠性,尤其目标区域往往是高成本的extrapolation部分。经典均匀采样或随机选择在预算受限时,外推误差容易显著放大。社区初步讨论多停留在省预算层面,却较少触及方法背后的不确定性建模机制。数据支持低预算下的高效性,但样本量和任务覆盖仍需更多验证。
这篇题为《Spend Less, Fit Better》的研究将Scaling Law拟合重构为预算感知的序贯实验设计问题。给定候选实验池中异质的计算成本,方法不再盲目运行所有选项,而是通过不确定性感知的主动选择,优先执行那些最能提升高成本目标区域外推准确性的实验。在覆盖预训练超参、数据分配、MoE架构等多类任务的基准上,仅用约10%的总训练预算即可接近全集拟合的性能表现。
行业里大多数讨论仍停留在scaling law如何指导大规模训练,以及MoE通过解耦总参数与实际计算量带来的效率优势。相关实证研究显示,MoE的专家激活比例、粒度等配置会以可预测的power-law形式影响效率杠杆,但大家往往默认pilot实验是常规步骤,忽略了在不同专家数或激活比下算力开销的巨大差异。
结果显示,在涵盖多个任务的多样化基准上,这种主动选择策略持续优于经典设计基线。往往仅用约10%的总训练预算,就能接近使用全量实验集拟合的外推性能。这个剪刀差说明,传统被动全量或随机pilot的方式,在低预算regime下效率低下得多。
论文强调,传统随机或最优设计准则(如D-opt)在低预算场景下表现欠佳,而新方法通过不确定性感知实现更高效的资源分配。
行业里对Scaling Law的认知大多停留在表面:大家都知道它能帮助团队提前规划算力、数据和模型规模,避免盲目上大项目。可实际操作中,先跑一大堆试点来拟合曲线,这部分开销本身就成了沉重负担。不少从业者和网友常吐槽AI训练烧钱效率低下,却很少注意到更深层的挑战——实验成本高度异构,有的试点用小模型成本低,有的涉及大上下文或特殊硬件则贵得多;同时,拟合目标往往是可靠外推到高成本区,而非简单插值已有数据点。
论文的创新点在于,把问题明确定义为预算感知的序贯决策。给定一个有限的可运行实验池,每个实验成本不同,目标是最大化在高成本目标区域的外推精度。他们提出的不确定性感知方法,会综合考虑成本惩罚和方差减少,优先选择那些能显著降低目标区域预测不确定性的实验。这一点目前行业内仍有不同声音,但数据支持这个方向。
主流行业讨论中,大家更关注Scaling Law是否会失效或数据墙问题,却较少直面拟合过程的成本异质性盲区。许多团队仍依赖固定设计或穷举式小模型实验,忽略了不同实验对高成本目标区域的边际贡献差异,导致预算在低信息区域白白消耗。
% 和 7%。这个数字对比,值得深思。