MoEæ¨¡åž‹Scaling Lawæ‹Ÿåˆå¦‚ä½•â€œå°‘èŠ±é’±ã€å¤šåŠžäº‹â€ï¼Ÿé¢„ç®—é«˜æ•ˆä¸»åŠ¨å®žéªŒæ–°æ–¹æ³•è§£è¯»

å›´ç»•è°æœ‰1å…ƒ1åˆ†è·‘çš„å¿«ç¾¤ã€æœ€æ–°çŽ©æ³•åŠ¨æç›¸å…³çº¿ç´¢ï¼Œä¸å†æ˜¯ç®€å•å †ç Œå…³é”®è¯ï¼Œè€Œæ˜¯æž„å»ºå›´ç»•æ ¸å¿ƒä¸»é¢˜çš„å®Œæ•´å†…å®¹ç½‘ç»œã€‚

æ ¸å¿ƒæ‘˜è¦

ä½œè€…ä¿¡æ¯

ä½œè€…ï¼šçƒç‚¹ç¼–è¾‘å®¤

ç®€ä»‹ï¼šç«™ç‚¹æ›´æ–°ç¼–è¾‘ä¸“æ³¨äºŽå›´ç»•ä¿¡æ¯è„‰ç»œæ¢³ç†è¿›è¡Œå†…å®¹æ•´ç†ï¼ŒåŒæ—¶å…¼é¡¾åŒä¸»é¢˜æ®µè½å½’çº³ï¼Œé‡è§†é¡µé¢é¦–å±ä¿¡æ¯ä¸Žæ£æ–‡æ‰¿æŽ¥ï¼Œè®©çƒç‚¹æ£æ–‡ã€ç°è¯å¯¼è¯»å’Œç›¸å…³æŽ¨èä¿æŒåŸºæœ¬åè°ƒã€‚

å‘å¸ƒæ—¶é—´ï¼š2026-04-28 04:15:13

æ–‡ç« çƒåº¦

é˜…è¯» 937 ç‚¹èµž 4999 è¯„è®º 3

不再是简单堆砌关键词，而是构建围绕核心主题的完整内容网络。

最近一篇arXiv论文《Spend Less, Fit Better》将scaling law拟合问题转化为预算感知的序贯实验设计。在有限的异质成本实验池中，通过不确定性感知的采集函数，优先选择那些能显著降低目标高成本区域外推不确定性的实验点。这一方法在多个scaling law基准上表现出色，往往仅用总预算的约10%，就能接近全量实验集的拟合精度，尤其适合参数规模庞大的场景。

打个比方，这就像在多条投资路径中用少量试探性实验，提前锁定最值得重仓的MoE配置路径。传统全量pilot更接近暴力烧钱，而主动实验选择让scaling law拟合真正服务于参数高效扩展时代的成本优化。数据支持这一方向，但样本量和实验池设计仍会影响最终泛化，值得持续观察。

新方法的核心在于不确定性感知的主动选择策略。它采用高斯混合近似来建模参数不确定性，捕捉Scaling Law可能存在的多个局部最优盆地。每次迭代中，算法计算每个候选实验对目标区域均方预测误差的预期减少量，并结合成本归一化（除以成本的α次方），从而优先挑选单位成本下效用最高的实验。这种设计让早期迭代侧重全局盆地分辨，后期转向局部趋势精炼，完美适配预算受限的现实场景。

对LLM训练团队而言，这种预算高效的主动实验选择短期内能加速pilot迭代，显著降低百万级预训练的风险，尤其利于vocab选择和tokenization调优。长期看，它推动scaling law从被动事后拟合转向前瞻预算优化，让中小团队也能以更低门槛参与高效预训练设计。当然，如果目标区域是极端大规模模型，收益可能更为明显；预算极度紧张时，其优势同样突出。数据支持这个方向，但行业内对实际落地细节仍有不同声音。

论文提出的 target-aware acquisition function 直击这一核心。它基于目标区域的均方预测误差（MSPE）进行分解，将不确定性拆分为 intra-basin（同一参数盆内的预测波动）和 inter-basin（不同盆在目标区域的预测分歧）两项。获取函数同时评估这两项的预期降低量，再通过 cost penalization（α 参数通常在 0.4 左右）实现成本归一化。

为什么这种方法对学习率和批大小这类超参数特别有效？因为它们的Scaling行为常呈现非线性，且在不同模型规模或数据regime下差异显著。传统方法容易陷入低成本区域的局部最优，而主动选择通过实时评估不确定性，避免了盲目浪费。举例来说，当批大小增大时学习率的次线性调整规律，往往需要在高计算点上验证；主动策略能更早锁定那些关键验证实验，减少无效GPU小时消耗。

arXiv 最新论文《Spend Less, Fit Better》提出了一种预算感知的主动实验选择方法，试图将这一过程从盲目数据堆积转向智能顺序设计，尤其针对非线性 Scaling Law 中常见的 **multi-basin** 难题。

论文的深层贡献在于引入混合高斯近似来建模拟合不确定性，并将其分解为不同“盆地”——代表全局不同的外推趋势。早期选择阶段聚焦解决盆地模糊，即快速区分哪些趋势更可能主导目标区域；后期则转向局部方差精炼。这种自适应过程，结合成本感知分数（平衡均方预测误差与实验成本），让每单位预算的收益最大化。类比Chinchilla对Kaplan Scaling Law的迭代，这次优化直接作用于拟合环节本身，而非最终分配公式。

当然，方法仍有现实边界。它依赖混合高斯近似，在盆地识别极端困难时精度可能受限，当前基准也使用了简化成本模型。实际部署中还需要结合真实算力计费进一步调优，多步前瞻和更鲁棒后验估计是值得跟踪的方向。但整体而言，这已为中小团队从被动全跑转向主动选择提供了实用框架，值得持续观察其在更多真实场景下的表现。

打个比方，这套主动实验选择就像面对多条预算路径的投资决策，不必每条都重仓试水，而是用少量试探性run，精准预测哪条最值得在百亿级MoE上投入重资源。现有MoE scaling研究已显示，激活比例往往主导效率杠杆，而粒度起到非线性调制作用；如果能把不确定性感知引入pilot阶段，团队就能更快锁定最优配置区间，避免早期验证的资源浪费。但这一点目前行业内仍有不同声音，部分研究者认为实验池设计本身如果不够全面，外推结果仍可能偏差。

两者之间的差距，正在被越来越多的数据所印证。

æœ¬æ–‡å¯¼èˆª

è‹¥éœ€è¦ç»§ç»æŸ¥çœ‹åŒä¸»é¢˜å†…å®¹ï¼Œå¯è¿”å›ž é¦–é¡µã€ æ ç›®é¡µï¼Œ æˆ–ç›´æŽ¥è¿›å…¥ MoEæ¨¡åž‹Scaling Lawæ‹Ÿåˆå¦‚ä½•â€œå°‘èŠ±é’±ã€å¤šåŠžäº‹â€ï¼Ÿé¢„ç®—é«˜æ•ˆä¸»åŠ¨å®žéªŒæ–°æ–¹æ³•è§£è¯»ã€ æ–°ç”Ÿå„¿æ„å¤–å åœ°åŽåŒ»é™¢å¦‚ä½•ç´§æ€¥æ•‘æ´ï¼šå„¿ç§‘æŠ¤å£«é•¿ç ´é—¨æ•‘æ¯åçš„æƒŠé™©å…¨è¿‡ç¨‹ã€‚

åŒæ é˜…è¯»ï¼š æ¾³é—¨å±…æ°‘å¤šæ¬¡å·è¿ç‰©å“ç´¯ç§¯å¤„ç½šæœºåˆ¶è¯¦è§£ï¼šä¸€æ¬¡å°åˆ©æˆ–æˆç»ˆèº«éšæ‚£ / ä»ŽAnthropicè‚¡æƒæ¢æˆ¿çœ‹ç¡…è°·æ–°è´¢å¯Œè½¬ç§»æ¨¡å¼ / AIè§£å†³ErdÅ‘sé—®é¢˜ï¼šä¸šä½™çˆ±å¥½è€…ç”¨ChatGPTâ€œéšæ„ä¸€é—®â€å°±ç ´å±€ï¼Œé¡¶å°–æ•°å¦å®¶å¦‚ä½•çœ‹å¾…æœªæ¥ï¼Ÿ

æœ¬æ–‡æ ‡é¢˜ï¼šMoEæ¨¡åž‹Scaling Lawæ‹Ÿåˆå¦‚ä½•â€œå°‘èŠ±é’±ã€å¤šåŠžäº‹â€ï¼Ÿé¢„ç®—é«˜æ•ˆä¸»åŠ¨å®žéªŒæ–°æ–¹æ³•è§£è¯»
å›ºå®šé“¾æŽ¥ï¼šhttp://www5.name.ss7a.cn/images/3261.html
è¯´æ˜Žï¼šæœ¬æ–‡ä¸ºå½“å‰ä¸»é¢˜çš„é¢‘é“æ•´ç†é¡µï¼Œæ£æ–‡ä¸Žç›¸å…³é˜…è¯»ä¼šæŒç»å›´ç»•åŒç±»ä¿¡æ¯å±•å¼€ã€‚

é¢‘é“é€Ÿè§ˆ

ç«™ç‚¹ï¼šwww5.name.ss7a.cn

æ ç›®ï¼š谁有1元1分跑的快群 / æœ€æ–°çŽ©æ³•åŠ¨æ€

åœ°å€ï¼šhttp://www5.name.ss7a.cn/images/3261.html

å»¶ä¼¸é˜…è¯»

ä¸ºä»€ä¹ˆä¼ ç»ŸScaling Lawæ‹Ÿåˆæ–¹æ³•å·²è¿‡æ—¶ï¼Ÿæ–°ä¸»åŠ¨é€‰æ‹©ç–ç•¥è§£æž

å¦‚ä»Šå¤§æ¨¡åž‹è®ç»ƒè¶Šæ¥è¶Šçƒ§é’±ï¼Œä¸€æ¬¡å®Œæ•´è®ç»ƒè·‘ä¸‹æ¥å¾€å¾€éœ€è¦æ•°ç™¾ä¸‡ç”šè‡³æ›´å¤šç¾Žå…ƒã€‚è€ŒScaling Lawæ‹Ÿåˆæ£æ˜¯ç”¨æ¥è§„åˆ’è¿™äº›å¤§è§„æ¨¡è®ç»ƒçš„å…³é”®å·¥å…·ï¼Œå®ƒé€šè¿‡å°è§„æ¨¡pilotå®žéªŒæ¥é¢„æµ‹æ›´å¤§æ¨¡åž‹çš„è¡¨çŽ°ã€‚å¯æ˜¯ï¼Œæ‹Ÿåˆè¿‡ç¨‹æœ¬èº«å°±å¯èƒ½è€—è´¹å·¨é¢é¢„ç®—ã€‚åœ¨é¢„ç®—ç´§å¼ çš„çŽ°ä»£å¤§æ¨¡åž‹å·¥ä½œæµä¸ï¼Œå¦‚ä½•ç»„å»ºä¸€å¥—æœ‰æ•ˆçš„ä¿¡æ¯ä¸°å¯Œçš„pilotå®žéªŒé›†ï¼Œå·²ç»ä»Žä¾‹è¡Œé¢„å¤„ç†æ¥éª¤å˜æˆäº†çœŸæ£çš„é¢„ç®—åˆ†é…éš¾é¢˜ã€‚ æœ€è¿‘arXivä¸Šçš„ä¸€ç¯‡è®ºæ–‡ç›´æŽ¥æˆ³ä¸äº†è¿™ä¸ªç—›ç‚¹ã€‚è®º...

å‘å¸ƒæ—¶é—´ï¼š2026-06-25

Scaling Lawå¤–æŽ¨å‡†ç¡®æ€§ä¼˜åŒ–ï¼šä¸»åŠ¨é€‰æ‹©å®žéªŒ vs ä¼ ç»Ÿæ–¹æ³•

åœ¨AIå¤§æ¨¡åž‹æ—¶ä»£ï¼ŒScaling Lawå·²ç»æˆä¸ºè§„åˆ’è®ç»ƒè·‘æ¥çš„æ ¸å¿ƒå·¥å…·ã€‚å®ƒèƒ½å¸®å›¢é˜Ÿé¢„æµ‹æ›´å¤§è§„æ¨¡æ¨¡åž‹çš„è¡¨çŽ°ï¼Œä»Žè€Œå†³å®šåˆ°åº•è¦æŠ•å¤šå°‘ç®—åŠ›ã€å¤šå°‘æ•°æ®ã€å¤šå°‘å‚æ•°ã€‚å¯é—®é¢˜æ¥äº†ï¼šæ‹Ÿåˆè¿™äº›Scaling Lawæœ¬èº«å°±éœ€è¦è·‘å¤§é‡è¯•ç‚¹å®žéªŒï¼Œè€Œè¿™äº›å®žéªŒåŠ èµ·æ¥ï¼Œæˆæœ¬åŠ¨è¾„ç™¾ä¸‡ç¾Žå…ƒã€‚ å¾ˆå¤šå›¢é˜ŸçŽ°åœ¨å°±å¡åœ¨è¿™ä¸ªçŽ¯èŠ‚ã€‚åˆ°åº•æ˜¯ç”¨ä¼ ç»Ÿç»å…¸å®žéªŒè®¾è®¡è€è€å®žå®žå¹¿æ’’ç½‘ï¼Œè¿˜æ˜¯å°è¯•æ–°æå‡ºçš„ä¸»åŠ¨é€‰æ‹©æ–¹æ³•ï¼Ÿè¿™ä¸ªé€‰æ‹©ä¸æ˜¯å°äº‹ï¼Œå®ƒç›´æŽ¥å†³å®šåŽç»å¤§æ¨¡åž‹è®ç»ƒ...

å‘å¸ƒæ—¶é—´ï¼š2026-06-25

æœ€è¿‘ä¸€ç¯‡arXivè®ºæ–‡æŠŠScaling Lawæ‹Ÿåˆçš„ç—›ç‚¹æ‘†åœ¨äº†å°é¢ä¸Šã€‚Scaling Lawä¸€ç›´è¢«ç”¨æ¥è§„åˆ’åŠ¨è¾„ç™¾ä¸‡ç¾Žå…ƒçš„LLMè®ç»ƒè·‘ï¼Œä½†æ‹Ÿåˆè¿™äº›å®šå¾‹æœ¬èº«å°±å¯èƒ½çƒ§æŽ‰ä¸Šç™¾ä¸‡ã€‚ä¼ ç»Ÿåšæ³•æ˜¯è·‘ä¸€å¤§å †pilotå®žéªŒæ¥å‡‘æ•°æ®ï¼Œå¯åœ¨å®žé™…å¤§æ¨¡åž‹å·¥ä½œæµé‡Œï¼Œæ‹¼å‡‘ä¸€å¥—è¶³å¤Ÿæœ‰ä¿¡æ¯é‡çš„è¯•ç‚¹é›†ï¼Œå·²ç»æˆäº†é¢„ç®—åˆ†é…çš„éš¾é¢˜ï¼Œè€Œä¸æ˜¯ç®€å•çš„å‰ç½®æ¥éª¤ã€‚ è®ºæ–‡ã€ŠSpend Less, Fit Betterã€‹ç»™å‡ºäº†ä¸€ä¸ªå®žæ“æ–¹å‘ï¼šæŠŠScali...

å‘å¸ƒæ—¶é—´ï¼š2026-06-25

å¦ä¹ çŽ‡ä¸Žæ‰¹å¤§å°Scaling Lawçš„ä½Žæˆæœ¬æ‹Ÿåˆå®žè·µ

åœ¨å½“å‰å¤§è¯è¨€æ¨¡åž‹å¼€å‘ä¸ï¼ŒScaling Lawå·²ç»æˆä¸ºè§„åˆ’è®ç»ƒè§„æ¨¡çš„æ ¸å¿ƒå·¥å…·ã€‚ç ”ç©¶è€…é€šè¿‡å®ƒé¢„æµ‹æ¨¡åž‹æ€§èƒ½éšè®¡ç®—é‡ã€æ•°æ®é‡ä»¥åŠè¶…å‚æ•°çš„å˜åŒ–è§„å¾‹ï¼Œå…¶ä¸å¦ä¹ çŽ‡å’Œæ‰¹å¤§å°æ˜¯ä¸¤ä¸ªå…³é”®å˜é‡ï¼Œç›´æŽ¥å½±å“è®ç»ƒæ•ˆçŽ‡å’Œæœ€ç»ˆæ•ˆæžœã€‚ç„¶è€Œï¼Œæ‹Ÿåˆè¿™äº›è§„å¾‹éœ€è¦å¤§é‡è¯•ç‚¹å®žéªŒï¼Œè€Œåœ¨çŽ°ä»£å¤§è§„æ¨¡å·¥ä½œæµä¸ï¼Œç»„è£…è¶³å¤Ÿä¿¡æ¯ä¸°å¯Œçš„å®žéªŒé›†æœ¬èº«å·²æˆä¸ºé¢„ç®—åˆ†é…çš„é‡å¤§éš¾é¢˜ï¼Œè€Œä¸æ˜¯ä¾‹è¡Œçš„é¢„å¤„ç†æ¥éª¤ã€‚ ä¼ ç»Ÿåšæ³•å¾€å¾€ä¾èµ–éšæœºæˆ–å‡åŒ€é‡‡æ ·å¤§é‡å®žéªŒç‚¹æ¥æ‹ŸåˆScali...

å‘å¸ƒæ—¶é—´ï¼š2026-06-25

Scaling Lawæ‹Ÿåˆä¸çš„ç›†åœ°ä¼°è®¡ä¸Žä¸ç¡®å®šæ€§é™ä½Žï¼šç”¨10%é¢„ç®—å®žçŽ°æ›´å¥½å¤–æŽ¨

Scaling Lawæ‹Ÿåˆé•¿æœŸä»¥æ¥è¢«è§†ä¸ºå¤§æ¨¡åž‹è®ç»ƒå‰çš„å¸¸è§„æ¥éª¤ï¼Œå´è¶Šæ¥è¶Šæˆä¸ºé¢„ç®—é»‘æ´žã€‚å¾ˆå¤šäººä»¥ä¸ºï¼Œåªè¦å¤šè·‘å‡ ç»„pilotå®žéªŒï¼ŒScaling Lawçš„é¢„æµ‹å°±ä¼šæ›´å‡†ã€‚å¯çŽ°å®žæ˜¯ï¼Œç»„è£…ä¸€å¥—è¶³å¤Ÿä¿¡æ¯é‡çš„å®žéªŒé›†æœ¬èº«å°±å¯èƒ½è€—è´¹æ•°ç™¾ä¸‡ç¾Žå…ƒï¼Œå°¤å…¶å½“ç›®æ ‡æ˜¯å¤–æŽ¨åˆ°é«˜æˆæœ¬åŒºåŸŸæ—¶ã€‚ arXivä¸Šè¿™ç¯‡é¢˜ä¸ºã€ŠSpend Less, Fit Better: Budget-Efficient Scaling Law Fitti...

å‘å¸ƒæ—¶é—´ï¼š2026-06-25

Scaling Lawæ‹Ÿåˆæˆæœ¬æ„ŸçŸ¥åˆ›æ–°ï¼šSpend Less, Fit BetterèŽ·å–å‡½æ•°è¯¦è§£

åœ¨å¤§æ¨¡åž‹æ—¶ä»£ï¼ŒScaling Lawæ—©å·²æˆä¸ºè§„åˆ’è®ç»ƒé¢„ç®—çš„æ ¸å¿ƒå·¥å…·ã€‚å®ƒèƒ½å¸®åŠ©å›¢é˜Ÿç”¨å°è§„æ¨¡pilotå®žéªŒé¢„æµ‹å¤§è§„æ¨¡è®ç»ƒçš„è¡¨çŽ°ï¼Œé¿å…ç›²ç›®çƒ§é’±ã€‚å¯çŽ°å®žä¸ï¼Œæ‹Ÿåˆè¿™äº›Scaling Lawçš„è¿‡ç¨‹æœ¬èº«å°±å¯èƒ½èŠ±æŽ‰ä¸Šç™¾ä¸‡ç¾Žå…ƒã€‚ç»„å»ºä¸€å¥—è¶³å¤Ÿä¿¡æ¯é‡çš„pilotå®žéªŒé›†ï¼Œå·²ç»ä»Žå¸¸è§„é¢„å¤„ç†æ¥éª¤å˜æˆäº†çœŸæ£çš„é¢„ç®—åˆ†é…éš¾é¢˜ã€‚ æœ€è¿‘arXivä¸Šçš„ä¸€ç¯‡è®ºæ–‡ã€ŠSpend Less, Fit Better: Budget-Effici...

å‘å¸ƒæ—¶é—´ï¼š2026-06-25

MoEæ¨¡åž‹Scaling Lawæ‹Ÿåˆå¦‚ä½•â€œå°‘èŠ±é’±ã€å¤šåŠžäº‹â€ï¼Ÿé¢„ç®—é«˜æ•ˆä¸»åŠ¨å®žéªŒæ–°æ–¹æ³•è§£è¯»

ä½œè€…ä¿¡æ¯

æ–‡ç« çƒ­åº¦

MoEæ¨¡åž‹Scaling Lawæ‹Ÿåˆå¦‚ä½•â€œå°‘èŠ±é’±ã€å¤šåŠžäº‹â€ï¼Ÿé¢„ç®—é«˜æ•ˆä¸»åŠ¨å®žéªŒæ–°æ–¹æ³•è§£è¯»

ä½œè€…ä¿¡æ¯

æ–‡ç« çƒåº¦