AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
作者信息
作者:站点内容组
简介:话题观察编辑负责把热点素材、正文段落和相关入口统一整理,重点覆盖正文素材复核与延伸阅读整理,让内容更新更适合批量文章页使用,并根据当期话题做差异化补充。
发布时间:2026-04-28 05:12:32
文章热度
希望能帮你更快找到适合自己的那一款。
短期内,开发者部署AI Coding Agent时必须重点监控输入上下文膨胀和轨迹随机性,否则成本很容易失控。长期看,这类轨迹分析会推动行业研发更高效的token管理、上下文压缩工具和轻量框架。对普通开发者而言,选对高效模型并优化中间成本策略,就能显著降低费用。但如果模型在自我预测能力上没有突破,Agent的规模化应用仍可能面临明显的经济瓶颈。值得持续跟踪的是,未来轨迹数据集能否带来更可控的优化路径。
另一个反直觉点是,人类专家评定的任务难度与实际 token 消耗仅呈弱相关。某些在人类看来棘手的 GitHub issue,Agent 可能迅速找到高效路径;反之,一些看似简单的修复却让 Agent 陷入反复试错循环,token 开销远超预期。这反映出当前 Agent 的“思考路径”与人类认知之间仍存在明显鸿沟,也提醒我们不能简单用人工判断来预估部署成本。
工具调用冗余同样不容忽视。Agent 在探索阶段频繁读取文件、执行终端命令,每次都产生额外输入 token,单纯代码库探索就可能烧掉几万 token。社区实践显示,预先生成项目地图或依赖图,仅在必要时调用具体工具,并对输出做关键片段 summarization,能显著压缩开销。对于重复性调用,尝试本地缓存或脚本预处理。70% 和 7%——这个剪刀差说明一切,高消耗与高准确率之间并无必然联系。
论文重点考察了需要多步工具调用和上下文累积的agentic tasks。在SWE-bench这类真实软件工程场景中,Agent不断阅读代码、调用工具、生成补丁、验证测试,导致输入token快速膨胀。即使启用缓存,上下文累积效应仍主导整体开销。输出token虽重要,但远不是成本大头。这种输入驱动的特性,让传统“控制生成长度就能省钱”的思路显得不够充分。
》通过SWE-bench Verified上的轨迹数据分析发现,agentic coding任务的token消耗比普通代码聊天高出约1000倍,而且成本主要由输入token驱动,而不是输出的生成部分。这让不少人开始意识到,AI工具如果不加以控制,很容易从生产力助手变成隐形烧钱机器。
从 2026 年的短期视角看,个人开发者或小团队处理复杂编码任务时,单次运行轻松突破百万 token 已非罕见现象。试点阶段预算超支的风险较高,尤其在涉及频繁工具调用和自我修正的场景下。若企业仅凭几次成功测试就匆忙推向规模化,很可能面临难以预料的开支波动。行业数据显示,若不加以控制,token 使用量在未来两年内将呈现指数级增长,进一步放大这一压力。
模型之间的效率差异也值得注意。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观判断,与实际token成本只有弱相关,相关系数不高。这说明凭经验预估Agent开销常常偏差很大,主流误区让预算失控。
另一个反直觉发现是准确率与token消耗的关系。高消耗并不必然对应高准确率。数据表明,准确率常在中间成本区间达到峰值,继续堆token后表现趋于饱和甚至浪费。Agent可能陷入冗长循环,重复无效路径,却没带来实质进步。这就像人类专家对任务难度的主观感知,与Agent实际计算努力存在脱节——看似棘手的bug有时只需少量token解决,而简单问题却因路径随机耗费巨量资源。人类评分与真实token成本的相关性微弱,进一步印证了这种差距。
模型间效率差异同样显著,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。这件事比表面看起来复杂得多:2026年企业级规模化部署的真实TCO远不止token费用本身。
arXiv上最新论文《How Do AI Agents Spend Your Money?》针对agentic coding任务进行了系统分析,考察了八个前沿LLM在SWE-bench Verified上的token消耗轨迹。研究发现,agentic任务消耗token比普通代码推理或聊天多出约1000倍,且主要是输入token主导成本,而非输出。
最新1元1分跑的快群的发展中,SEO资讯站注意到政策与市场的双重作用力。
固定链接:http://www5.name.ss7a.cn/6121.html
说明:本文为当前主题的频道整理页,正文与相关阅读会持续围绕同类信息展开。