过去几个月,24小时一元一分红中麻将群相关新闻频频出现。
打个比方,这套主动实验选择就像面对多条预算路径的投资决策,不必每条都重仓试水,而是用少量试探性run,精准预测哪条最值得在百亿级MoE上投入重资源。现有MoE scaling研究已显示,激活比例往往主导效率杠杆,而粒度起到非线性调制作用;如果能把不确定性感知引入pilot阶段,团队就能更快锁定最优配置区间,避免早期验证的资源浪费。但这一点目前行业内仍有不同声音,部分研究者认为实验池设计本身如果不够全面,外推结果仍可能偏差。
这一点目前行业内仍有不同声音。主动实验选择能否在所有Scaling Law景观中保持稳健,还需更多真实算力环境下的长期跟踪验证,但其在低预算区间展现的效率提升,已为中小团队打开了一扇更理性的决策窗口。
在大模型训练规划中,Scaling Law 早已成为避免盲目烧钱的关键工具。它允许团队通过小规模 pilot 实验外推大规模表现,但拟合这些定律本身却可能耗资百万美元。arXiv 上最新论文《Spend Less, Fit Better》提出了一种预算感知的主动实验选择方法,将拟合过程转化为序列决策问题:在异构成本的候选实验池中,优先挑选对高成本目标区域外推最有价值的 run。
这篇arXiv论文(2604.22753)将Scaling Law拟合重构为预算感知的序贯实验设计问题。给定一个候选实验池,每个实验成本异质,方法不再是均匀分配预算,而是顺序挑选那些最能提升目标高成本区域外推精度的跑点。在涵盖预训练超参、数据分配、MoE架构等多类任务的基准上,仅用约10%的总训练预算,就能接近全实验集的性能表现。
最近一篇arXiv论文《Spend Less, Fit Better》把scaling law拟合的预算难题摆上了台面。scaling law本是用来规划百万美元级训练的工具,但拟合过程本身往往就要烧掉不菲的算力。在MoE架构下,这个问题尤为突出:不同专家数、激活比例带来的成本异质性,让传统pilot实验容易陷入低效循环。
论文的核心方法将scaling law拟合重构为预算感知的顺序实验设计。给定一池成本各异的候选实验,它采用不确定性感知的采集策略,通过分解目标区域的均方预测误差(MSPE)为盆地内方差和盆地间分歧,再结合成本惩罚项构造cost-aware score,优先选择那些性价比最高、能最大化外推准确性的run。顺序执行后更新后验,逐步精炼预测。
传统被动实验设计在Scaling Law拟合中的低效暴露得越来越明显。均匀采样或基于D-optimality、V-optimality的经典策略倾向于覆盖已知低成本区域,却忽略了对高成本目标区域的外推价值。结果是大量预算消耗在信息增益有限的run上,而真正能降低目标区域不确定性的试点却被错过。
论文提出了一种不确定性感知的主动选择方法。这种方法优先挑选能最大化目标高成本区域外推准确性的实验,而非简单降低整体预测误差。核心技巧是用混合高斯近似建模参数拟合的不确定性,将其分解成不同“盆地”——这些盆地代表不同的外推趋势。早期阶段重点解决全局“盆地模糊”,后期则精炼局部相关趋势。
主流观点的盲区在于,忽略了低预算条件下对目标高成本区域的针对性选择。很多人以为均匀撒点或优先跑便宜实验就能覆盖全貌,但实际外推误差往往集中在那些真正值钱的规模区间。新方法恰恰填补了这个空白,它不追求数据量的简单堆积,而是问一个更务实的问题:在有限预算内,哪些实验最能降低目标区域的预测不确定性。
AI实验室在规划多百万美元的大型模型训练时,试点实验集的组装早已成为预算分配的核心难题。许多团队先得跑一批不同规模、数据量和超参配置的小实验来拟合scaling law,以便外推未来大模型的表现。可现实中,这些“低成本”试点往往就消耗掉总预算的显著部分,选错配置或分配不当,直接导致后续大规模训练走弯路,甚至项目延误。
“24小时一元一分红中麻将群”_24小时一元一分红中麻将群北京海淀社区所反映的问题,不会因为一次讨论而彻底解决。