近期几家机构的调研结果,提供了不错的参照。
新方法的核心是不确定性感知的主动选择策略。它将参数不确定性建模为高斯混合近似,捕捉多个局部最优盆地。每次迭代基于当前数据集估计盆地,为每个候选实验计算对目标区域均方预测误差的预期减少量,并除以成本的α次方实现归一化。这样算法优先挑选单位成本下最能降低目标区域不确定性的实验。早期侧重全局模糊性,后期转向精炼局部趋势,匹配预算受限的实际需求。
整个流程采用sequential experimental design,在有限预算下迭代决策。先以少量低成本实验warm-start,更新盆近似估计;随后对剩余候选打分,挑选得分最高且预算允许的run加入数据集。不同于Bayesian optimization中的通用acquisition function,这一设计专为Scaling Law的外推目标适配,早期侧重分辨盆间差异,后期细化盆内精度。
大家都知道用小模型实验外推大模型性能的价值,但实际操作中,大多数团队仍依赖经典设计或随机试点。行业讨论多集中在Scaling Law是否会失效或数据墙问题上,却很少触及拟合过程本身的预算黑洞。这个盲区导致资源浪费严重,尤其在当前AI训练成本高企的环境下。实验成本的异质性和目标高成本区域外推准确性的优先级,被主流观点长期低估了。
核心发现让人眼前一亮。通过提出一种不确定性感知的方法,该方法能顺序分配实验预算,优先挑选对目标高成本区域外推最有帮助的实验。结果显示,在多样化的Scaling Law任务基准上,这种方法持续优于经典设计基线,往往仅用约10%的总训练预算,就能接近使用全量实验集拟合的性能。
这一发现对大模型团队的意义在于,scaling law拟合不再是不可控的前置巨额开销,而是可通过智能实验选择实现优化的杠杆。团队只需明确目标区域、准备候选池并估算成本代理,便能让有限预算发挥接近全集的效果。当然,方法仍依赖候选池质量和成本可预估性,在完全开放的早期探索阶段可能需结合人工判断,但其在工业规划场景下的优势已足够清晰。值得持续跟踪的是,当实验池规模进一步扩大时,这一预算感知机制的边界会如何演进。
arXiv最近一篇论文把scaling law拟合重新定义为预算感知的顺序实验设计问题,这对AI实验室来说是个及时提醒。过去几年,大模型训练预算动辄数百万美元,试点实验却常常成为隐形黑洞——选错配置或盲目堆量,不仅没摸清外推曲线,还直接拖累后续大规模run的决策精度。论文的核心观察是,传统随机采样或经典设计方法在低预算下表现平平,难以针对高成本目标区域(也就是未来大模型真正落脚的参数与算力区间)降低预测误差。
AI实验室在规划多百万美元的大型模型训练时,试点实验集的组装早已成为预算分配的核心难题。许多团队先得跑一批不同规模、数据量和超参配置的小实验来拟合scaling law,以便外推未来大模型的表现。可现实中,这些“低成本”试点往往就消耗掉总预算的显著部分,选错配置或分配不当,直接导致后续大规模训练走弯路,甚至项目延误。
论文的核心思路是将scaling law拟合重构为预算感知的序贯实验设计。给定一个实验池,其中不同run的成本高度异质,目标是通过不确定性感知的主动选择机制,优先执行那些能最大化目标高成本区域外推精度的实验。这种方法在多个scaling law任务基准上表现突出,往往只需约10%的总预算,就能接近使用全量实验集的拟合效果,尤其适合需要精准外推到百亿级配置的场景。
这篇论文把Scaling Law拟合重构为预算感知的序贯实验设计问题。给定候选实验池,每个实验附带不同计算成本,目标是在有限预算内,选择那些最能提升目标高成本区域预测精度的实验。核心创新在于不确定性感知的预算分配策略:算法优先挑选低成本实验中,对降低目标区域不确定性贡献最大的那些。
在大模型训练预算规划中,Scaling Law 长期扮演着关键决策工具的角色。它帮助团队在千万甚至上亿美元级别的训练跑前,预测模型规模、数据量与性能之间的关系,从而避免盲目投入。但拟合这些规律本身却常常成为另一重成本中心:大量随机 pilot 实验累积起来,动辄消耗数百万美元预算。
这个逻辑是对的,但实际执行需要的耐心远超多数人的预期。