10%预算拟合Scaling Law:新方法让百万级实验预算缩水90%
作者信息
作者:内容编排组
简介:栏目维护编辑参与围绕阅读路径优化进行内容整理,同时兼顾资讯页面维护,以简洁、稳定、可读为主要标准,保证素材进入页面前经过基础整理和归纳,并根据当期话题做差异化补充。
发布时间:2026-04-28 04:15:44
文章热度
排名代发飞机【seo1268】好友聊天,输入“手机二元一分跑的快群”咨询客服,娱乐游戏作为民间很受欢迎的纸牌玩法,乐趣集中在快节奏的刺激感、心理博弈的张力,这两种玩法的规则几乎一学就会,不用记复杂的牌型搭配,就算是新手也能快速上手,梦想是前行的灯塔,哪怕渺小,也能指引方向。不必因梦想遥远就轻言放弃,逐梦的路上,本就布满挑战。拆分目标,步步前行,哪怕每天只前进一小步,也是在靠近理想。不惧旁人的质疑,不畏前路的漫长,坚守初心,全力以赴。只要心中有梦,眼里有光,脚下有路,终能跨越山海,奔赴心之所向的远方。在完善体系优化中的作用,正日益凸显其“认知桥梁”属性。
论文的核心洞见在于,它把scaling law拟合从“跑多少实验”转向“聪明选哪些实验”。提出的uncertainty-aware采集函数,会优先锁定那些能显著降低目标高成本区域不确定性、或帮助区分不同外推basin的实验点。这一框架自然延伸到MoE上:MoE的scaling涉及总参数N、激活参数Na、专家数E、粒度G以及数据集D等多维度,成本分布远非均匀。
长期来看,这类预算高效的Scaling Law拟合技术,有望让Scaling Law在更多资源受限场景落地。过去只有大厂能轻松玩转的规划工具,现在中小团队和开源社区也能用得起,整个大模型训练的经济模型可能会因此发生微妙变化。
值得持续跟踪的是,这种主动实验设计是否能在实验池异质性极强或目标区域成本极端高昂的真实场景中保持稳健收益。当前基准虽多样,但实际工业级训练的噪声和约束可能更复杂,现在下最终结论仍为时尚早。
论文提出的主动实验选择方法,实质是将拟合过程转为预算受限下的顺序决策。不是一次性把候选池跑完,而是从低成本实验起步,边观测边动态调整下一步选择。操作上,先构建包含不同模型规模N、数据量D、学习率等配置的候选池,并用FLOPs等指标标注每个实验的预估成本。然后设定总预算上限,通过采集函数优先挑选那些对高算力目标区域信息增益最大的点,而不是单纯追求整体拟合优度。
大多数从业者对词汇量scaling law的拟合仍停留在传统认知。早期Kaplan等工作让大家习惯用功率律描述性能随规模的变化,随后Chinchilla论文聚焦N-D平衡,近年社区则越来越关注更大模型往往需要更大vocab来更好压缩信息。媒体和论坛讨论常围绕“tokenization该如何优化”或“高参数模型配多大词汇表才最优”展开,不少一线工程师吐槽pilot实验成本高昂,跑出的数据对外推帮助却有限。
传统随机或均匀采样在高成本目标区域的外推能力上存在明显短板。小规模试点廉价,大规模验证昂贵,盲目分配容易在前期的GPU小时上造成浪费。许多团队发现,尽管前期投入不菲,最终得到的Scaling曲线泛化能力有限,难以可靠指导真正的百万美元级训练。这一点在学习率随批大小的非线性关系上体现得尤为突出。
arXiv这篇工作将scaling law拟合重新定义为预算感知的顺序实验设计问题。给定一个包含异构成本的候选实验池,目标不是一次性跑全集,而是通过顺序决策,优先选择那些能最大化高成本目标区域预测准确性的实验。论文在8个多样化任务、65个scaling law实例上验证,涵盖预训练超参、数据分配、MoE架构等场景,结果显示该方法在1%预算时已优于多数基线,到5%-10%预算时接近全集拟合效果。
最近一篇arXiv论文《Spend Less, Fit Better》把Scaling Law拟合的预算难题推到了台前。Scaling Law本是规划百万美元级LLM预训练的利器,可拟合过程本身往往就要消耗大量算力。论文提出将拟合转化为预算感知的顺序实验设计,通过主动实验选择,仅用约10%的总预算就能实现接近全实验集的外推精度,尤其在词汇量(V)与模型大小(N)、数据量(D)的联合scaling上表现突出。
最近几天,arXiv上这篇《Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection》引发了机器学习圈的讨论。Scaling Law常被用来规划百万美元级的大模型训练,但拟合这些定律本身就可能耗费巨额预算。传统做法往往是随机或贪婪采样几个试点实验,简单跑完就当作预处理。
最近几天,机器学习社区里悄然流传着一篇arXiv论文,它把Scaling Law拟合这个看似技术性的环节,直接拉到了预算分配的前台。论文指出,Scaling Law本是用来规划百万美元级训练跑的工具,可在拟合这些定律时,传统试点实验本身就可能耗资不菲。作者团队将问题重构为预算感知的序贯实验设计,在异构成本的候选实验池中,通过不确定性感知的主动选择,仅用约10%的总预算,就能让外推精度接近全量实验的结果。
区别在于,这次的时间窗口可能短得多。
固定链接:http://www5.name.ss7a.cn/images/3341.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。