这个对比,值得每一家正在观望的企业认真思考。
agentic coding 的高消耗并非单纯来自模型“聪明”,而是迭代循环与上下文交互的结构性特征。论文分析八个前沿 LLM 在 SWE-bench Verified 上的轨迹,发现同一任务不同运行间的 token 使用差异可达 30 倍,随机性极强。高 token 投入并不必然带来更高准确率,准确率往往在中级成本区间就已达峰,继续追加消耗更多是收益递减。
模型间效率差异同样值得注意。在相同任务设定下,部分前沿模型如Kimi-K2或Claude系列与GPT-5相比,token消耗可能多出上百万级别。同时,同一任务多次运行的总token使用随机性极高,有时相差可达数十倍,而token消耗与最终准确率并非严格正相关——中间成本区间往往已能达到较好效果,再增加迭代反而出现饱和。
另一个关键观察是不同模型的token效率差异巨大。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这反映出模型架构、工具交互机制以及上下文处理方式的本质区别。选择哪款模型部署代理系统,会直接拉开企业实际支出的差距,我的判断是——但这个判断可能需要随后续基准更新而修正。
论文的核心发现之一在于,Agent 任务的 token 使用呈现极强随机性。同一任务、同模型下,不同运行的总消耗差异可达 30 倍,且高 token 量并不必然带来更高准确率。准确率往往在中间成本区间达到峰值,继续注入更多 token 后反而出现饱和甚至边际递减。
这些发现不是理论空谈,而是直接戳中开发者每天面对的账单焦虑。输入token主导成本,意味着每一次把历史对话、工具输出、代码仓库全塞进上下文,都在默默加码。变量大、预测差,让预算控制变得像猜谜。
arXiv最新论文“How Do AI Agents Spend Your Money?”对八个前沿LLM在SWE-bench Verified上的完整轨迹进行了分析。结果显示,Agentic编码任务的token消耗是普通代码推理或代码聊天的1000倍左右,而主导成本的正是输入token,即使启用缓存,这一规律依然成立。
模型间的效率差距也令人惊讶:在相同任务上,Kimi-K2 和 Claude-Sonnet-4.5 平均比 GPT-5 多消耗 150 万以上 token,即使在所有模型都能解决的简单子集上,这种差距依然存在。人类专家对任务难度的主观判断,与实际 token 成本仅呈弱相关,这意味着凭经验估算很容易出错。
AI Coding Agent的隐藏成本主要藏在输入token的累积和运行随机性里。arXiv论文为开发者提供了可量化的观察窗口,但如何在实际SWE-bench类任务中平衡效率与开支,仍有不同实践声音。数据支持优化方向,但样本和场景差异意味着,现在下结论为时尚早,持续测试自己的token日志或许才是最稳妥的路径。
另一个突出问题是上下文膨胀。Agent 运行中会不断累积历史对话、工具输出和代码片段,输入窗口迅速变大。论文反复强调输入 token 是主要成本驱动因素。应对办法包括每隔固定步数进行 summarization 压缩,只保留关键决策和变更,同时对重复文件或工具结果启用 caching。在中等规模代码库中,提前生成架构摘要让 Agent 优先读取,往往能大幅降低全量读取的开销。
论文数据显示,输入token而非输出token才是成本主导因素。Agent在执行过程中大量时间用于维护和填充上下文、调用工具以及试错循环,而不是单纯产出更复杂的逻辑。这与人类写代码时的“脑力消耗”形成鲜明对比——我们评估的是认知负荷,Agent面对的却是计算路径的随机性和上下文吞吐量。数据支持这个方向,但样本主要集中在coding领域,是否完全泛化到其他agentic workflow,仍值得持续跟踪。
全新视角怎么找红中麻将一元群_书酒论坛的结论,经得起时间和数据的检验。
æ¬ææ é¢ï¼å¼åè
å¿
读ï¼AI Coding Agent çéèææ¬ä¸é¿åæå
åºå®é¾æ¥ï¼http://www5.name.ss7a.cn/images/6181.html
说æï¼æ¬é¡µå
容以䏻颿´çãä¿¡æ¯è¡¥å
åç¸å
³é
读为主ï¼éåæé¢éç»æåè¿ç»æ¥çã