哪里有1块1分跑的快群的价值,最终体现在它能否帮助企业在不确定环境中做出更好的决策。这也是它最核心的意义所在。
在Scaling Law拟合的实践中,主流做法往往依赖大量随机pilot实验来积累数据点。许多团队相信,跑的实验越多,曲线外推到高计算成本目标区域时就越可靠。这种“数据越多越准”的直觉在社区讨论中反复出现,尤其当规划数百万美元级训练跑时。
最近一篇arXiv论文(2604.22753)再次把目光拉回大模型训练中最烧钱却又最基础的环节:Scaling Law的拟合。传统思路下,实验室为了可靠外推,往往需要跑大量pilot实验,成本轻易就攀升到百万美元级别。这篇工作却实证了一个反直觉的结果——通过预算感知的主动实验选择,仅用约10%的总训练预算,就能让外推精度逼近使用全实验集的效果。
主流做法的盲区在于忽略了实验本身的异质成本,以及拟合重点应放在目标高成本区域而非均匀撒网。传统随机选择或cheapest-first策略容易陷入“盆地模糊”——不同参数组合在外推时呈现分歧趋势,却难以快速分辨哪个更可靠。这在词汇量相关Scaling上体现得尤为突出,因为vocab大小直接牵动tokenization效率和embedding矩阵优化,其成本结构与纯N-D Scaling存在明显差异。
论文的核心创新在于,把Scaling Law拟合彻底转化为一个动态的预算感知序贯决策过程。不是一次性静态挑选实验,而是根据当前模型的不确定性,逐步决定下一步跑哪个候选点,同时精确考虑每个实验的具体成本。早期阶段,方法优先缓解全局参数空间的“盆地”模糊;后期则聚焦目标高成本区域,降低那里的预测方差。这种不确定性驱动的分配逻辑,在多个基准任务上稳定超越经典设计基线。数据支持这个方向,但样本量和场景覆盖仍有待更多验证。
论文方法论的核心在于把拟合过程转化为主动、顺序的决策过程。给定候选实验池后,系统先分解目标区域的预测不确定性——包括盆地内部方差(intra-basin)和盆地间分歧(inter-basin)。随后用cost-aware score排序:预期误差降低量除以成本(附加惩罚),优先执行那些能同时削减两种不确定性且性价比高的实验。跑完一个后更新后验,再决定下一个,逐步收敛。
大家都知道Scaling Law的价值。用小模型实验外推大模型性能,听起来很聪明。但实际操作中,大多数团队还是依赖经典实验设计,或者干脆随机、全量跑pilot实验。行业讨论里,很多人把焦点放在Scaling Law会不会失效或者数据墙上,却很少提到拟合过程本身的预算黑洞。这一点目前行业内仍有不同声音。
对于预算有限的AI研究者而言,这套流程提供了一条清晰落地路径。首先定义实验池和目标区域,前者可包含不同学习率批大小组合或MoE变体,成本用6ND等代理估算;后者通常锁定亿级参数在万亿token规模的表现。暖启动后进入顺序循环:多起点拟合参数、聚类盆地、计算intra-basin和inter-basin效用,再选择得分最高的可负担实验更新数据集。
实验结果显示,在多个benchmark上,该方法用约10%的总训练预算,就能接近全集拟合的性能,尤其在目标区域R²指标上达到90%以上水平。这与历史Scaling Law拟合案例形成鲜明对比——过去团队常因盲目采样浪费资源,而新方法把百万级预算问题转化为可控序列决策。方向是对的,但盆估计准确性和实际成本建模仍需注意。
大多数从业者看到的是“10%预算接近全性能”这个直观亮点。主流观点认为,Scaling Law拟合必须依赖足够多的实验点来保障外推可靠性,尤其目标区域往往是高成本的extrapolation部分。经典均匀采样或随机选择在预算受限时,外推误差容易显著放大。社区初步讨论多停留在省预算层面,却较少触及方法背后的不确定性建模机制。数据支持低预算下的高效性,但样本量和任务覆盖仍需更多验证。
这种现象在当前AI研发流程中越来越突出。Scaling Law本应作为指导昂贵训练的可靠工具,描述性能与参数量、数据量、计算量之间的幂律关系。但在实际大型工作流里,组装一个信息量足够的实验池本身就成了主要预算黑洞,而非简单的预处理环节。许多团队要么选择盲目全覆盖,要么依赖随机挑选,导致外推到高成本目标区域时准确性大打折扣,最终决策面临更高风险。
这个迭代过程本身,就值得行业保持关注。