逆风翻盘的搜索生态,正在朝着更注重质量、相关性和用户体验的方向演进。
AI实验室在规划数百万美元的大型AI模型训练时,试点实验集的组装往往成为预算分配的最大难题。arXiv上最新论文《Spend Less, Fit Better》指出,许多团队习惯随机或经典实验设计,却无法针对高成本目标区域(即未来大模型落脚的高算力区)进行优化。结果是,花了钱却得不到可靠的外推预测,导致后续大规模训练资源浪费甚至方向调整。
在8类多样化Scaling Law任务上,包括预训练超参调优、数据分配、架构搜索等共65个实例,该方法稳定优于经典基线。用约10%总预算时,往往接近甚至匹配全数据集拟合性能,尤其在低预算区间优势明显。例如在学习率与批大小联合缩放等困难任务中,主动方法在1%预算时已进入低损失区域,而随机或启发式方法滞后明显。R²指标显示其目标区域外推更稳健,避免了仅用廉价点拟合的误导。
传统被动实验设计在Scaling Law拟合中的低效暴露得越来越明显。均匀采样或基于D-optimality、V-optimality的经典策略倾向于覆盖已知低成本区域,却忽略了对高成本目标区域的外推价值。结果是大量预算消耗在信息增益有限的run上,而真正能降低目标区域不确定性的试点却被错过。
这篇论文的作者团队把问题看得更透。他们将Scaling Law拟合定义为一个预算受限的序贯实验设计任务:给定候选实验池,每个实验有不同计算成本,目标是在有限预算下,最大化高成本目标区域的预测准确性。核心是不确定性感知的预算分配策略,把参数后验近似为多个“盆地”的混合高斯分布,这些盆地代表不同的局部最优和外推行为。
这篇论文的核心贡献在于将Scaling Law拟合重构为预算感知的序贯实验设计问题。给定一个候选实验池,每个实验附带异质计算成本,算法的目标不再是简单收集更多数据点,而是最大化在高成本目标区域的预测准确性。作者团队提出不确定性感知的预算分配策略:将参数后验近似为多个“盆地”的混合高斯分布,这些盆地捕捉不同的局部最优与外推行为。
采集函数的设计是方法论中最为锐利的部分。传统不确定性度量仅关注整体参数空间,而论文强调真正重要的是目标区域的预测准确性。他们将不确定性分解为盆内方差(局部预测波动)和盆间分歧(不同scaling趋势间的冲突),并用目标区域MSPE作为核心指标。采集分数则将预期不确定性降低量除以实验成本进行惩罚,避免盲目偏好高价实验。
长远来看,这种budget-aware思路可能重塑AI训练的pilot设计流程,从预先固定实验列表转向动态资源分配。不过,如果盆结构过于复杂或候选池多样性不足,收益或会打折。数据支持这个方向,但样本量有限,现在下结论为时尚早。
论文的核心洞见在于,把scaling law拟合从“跑多少实验”转向“聪明选哪些实验”。其提出的uncertainty-aware采集函数,会优先锁定那些能降低目标高成本区域不确定性、或帮助区分不同外推basin的实验点。这一设计在MoE上显得特别贴合,因为MoE scaling涉及总参数N、激活参数Na、专家数E、粒度G等多维度,成本分布极不均匀,主动机制能更精准捕捉激活比与预算间的power-law,以及粒度带来的非线性调制。
最近一篇arXiv论文《Spend Less, Fit Better》将scaling law拟合问题转化为预算感知的序贯实验设计。在有限的异质成本实验池中,通过不确定性感知的采集函数,优先选择那些能显著降低目标高成本区域外推不确定性的实验点。这一方法在多个scaling law基准上表现出色,往往仅用总预算的约10%,就能接近全量实验集的拟合精度,尤其适合参数规模庞大的场景。
很多从业者对Scaling Law的理解还停留在表面层面。大家都知道这些定律能帮助团队提前估算算力、数据和模型规模,避免盲目上大项目。但在落地时,先要跑一大堆试点来拟合曲线,这部分开支往往被低估成“常规预处理”。网友吐槽AI训练烧钱时,常把注意力放在最终训练成本上,却很少注意到试点阶段的异构成本问题:有些小模型实验跑得便宜,有些涉及长上下文或特殊硬件的就贵得多。主流观点的盲区在于,把实验设计当成简单的数据点采样,而非真正的预算分配决策。
“怎么进一元一分跑的快群”_怎么进一元一分跑的快群小说论坛。的观点,经得起后续实践、数据与时间的三重进一步检验。