重点观察

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?

围绕正规1元1分跑的快群、看透本质相关线索,这对正规1元1分跑的快群的技术实现路径产生直接影响。
专题内容编辑 2026-04-28 05:12:32 阅读 647
AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
内容提要
围绕正规1元1分跑的快群、看透本质相关线索,这对正规1元1分跑的快群的技术实现路径产生直接影响。

这对正规1元1分跑的快群的技术实现路径产生直接影响。

论文的核心发现直指这一盲区。同一任务不同运行轨迹的token消耗可相差高达30倍,输入token而非输出token才是成本主导因素。准确率往往在中等token区间达到峰值,继续增加消耗反而出现饱和甚至无明显提升。模型间差距同样惊人,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多耗超过150万token。

输入token主导的特性,让AI Coding Agent的成本结构与传统聊天工具形成鲜明对比。研究发现,代码审查和迭代验证阶段通常占总消耗的50%以上,而初始代码生成反而相对廉价。这提醒我们,agent并非一次性工具,而是持续对话系统,其隐藏成本藏在每次工具调用和历史累积里。数据支持这个观察,但具体到不同框架如OpenHands时的表现,仍需更多跨模型验证。

论文进一步揭示了agentic任务的独特高耗特征。相比单次推理,Agent需要反复读取上下文、调用工具并迭代修正,由此产生的“通信税”推动输入token占比显著升高。高耗并不必然对应高准确率,研究显示准确率常在中间成本区间达到峰值,继续追加token投入后反而出现饱和。这意味着盲目延长运行时间未必能换来更好回报。

你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单爆炸,却发现输入token占了大头——这正是大多数团队正在踩的坑。

arXiv最新论文《How Do AI Agents Spend Your Money?》的轨迹分析显示,这种现象在agentic coding任务中极为普遍,输入token的累积是主因。

短期内,继续依赖人类感知复杂度做agent deployment预算,容易导致ROI下滑,尤其在大规模生产环境中,随机波动会让固定成本控制变得棘手。长期来看,这一gap或推动行业开发更精准的token预测工具、优化模型效率,或设计内置预算感知的Agent架构。但前沿模型当前自我预测token消耗的相关性最高仅0.39,且存在系统性低估,值得持续跟踪。现在下结论为时尚早,样本和任务类型仍有局限。

GPT-5在相同任务下的token效率表现出色。论文数据显示,它平均比Kimi K2和Claude Sonnet 4.5少消耗150万以上的token。这一差距并非源于任务难度本身,即使在所有模型都能成功解决的子集上,效率差异依然稳定存在。GPT-5的上下文管理和迭代策略似乎更优化,避免了不必要的冗长循环。对于预算敏感或需要大规模部署Agent的团队来说,这种高效性直接转化为长期成本优势。

模型间的token效率差异同样不容忽视。在相同SWE-bench任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗150万以上token。这种差距即使在所有模型都能成功解决的简单子集上依然存在,说明它更多源于模型行为而非任务难度本身。人类专家对任务难度的主观判断与实际token成本仅呈弱相关,这意味着凭经验估算开支很容易出错。

此外,前沿模型预测自身token消耗的能力相当有限。论文指出,预测与实际消耗的相关性最高仅0.39,且存在系统性低估。 这让开发者在启动任务前难以准确预判开销,预算控制变得充满不确定性。短期内,这会让不少中小团队对大规模部署Agentic Coding保持谨慎;长期来看,它或将推动行业向token-efficient的代理架构演进,包括更优的上下文管理和成本预测工具。但如果缓存与压缩技术未能突破,使用门槛可能显著抬高中小玩家的参与度。

当然,优化不是一劳永逸。Agent架构仍在快速迭代,未来上下文压缩技术和原生长上下文支持可能进一步改变成本结构。但在当前阶段,把注意力从“输出溢价”转向“输入主导”,已是大多数团队能立刻调整预算逻辑、避免项目超支的务实一步。值得持续跟踪的是,随着Agent规模化部署,这一输入主导的经济学规律会如何影响整个LLM生态的定价模型。

回顾“正规1元1分跑的快群”_正规1元1分跑的快群新乡论坛中的核心论点,可以发现数据支持的方向与现实执行之间,仍存在不小的落差。这个落差,正是未来竞争的焦点所在。

继续查看

固定信息

固定链接:http://www5.name.ss7a.cn/images/6121.html

作者简介:站内内容组主要处理公开资料整合与页面摘要整理,侧重把分散素材整理成清晰内容,常见于站内内容更新流程,让文章页在移动端和 PC 端都保持清晰可读,并根据当期话题做差异化补充。

互动量:评论 1 / 点赞 2702

本文标题:AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?
固定链接:http://www5.name.ss7a.cn/images/6121.html
说明:本页内容以主题整理、信息补充和相关阅读为主,适合按频道结构做连续查看。

相关内容

进入频道

Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本

最近,一篇arXiv论文把开发者圈子里的一个隐性痛点摆上了台面:Agentic Coding任务的token消耗,竟然是普通代码聊天或简单推理任务的1000倍左右。这不是夸张的比喻,而是基于SWE-bench Verified基准的实测数据。论文作者系统分析了八款前沿大模型在代理编码场景下的轨迹,发现输入token才是真正的成本大头,而不是大家以为的输出生成。表面上看,AI代理能自主迭代、调试、修...

发布时间:2026-06-25

哪款大模型在 Agentic Coding 中最省 token?8 大前沿模型对比

你是不是也遇到过这种情况:用AI Agent帮忙写代码或修复Bug,任务一启动,token消耗就失控。跑完一个复杂任务,账单直接翻倍,却搞不清哪个模型更省钱。很多团队一开始只盯着准确率,结果部署后才发现,token成本成了最大隐患。选错模型,不仅开发效率打折,整个Agent项目都可能变得不划算。 最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》给...

发布时间:2026-06-25

AI Agent 高 token 消耗时代,固定订阅模式还能撑多久?深度经济挑战分析

最近,一篇来自arXiv的论文把AI Agent的成本问题摆到了台面上。研究针对SWE-bench Verified上的编码任务,分析了八个前沿大模型的轨迹,发现Agentic任务的token消耗远超普通代码推理或聊天场景,高达1000倍。输入token而非输出token成为主要开销来源,同一任务不同运行间消耗差异可达30倍,模型预测自身用量时相关性仅0.39,且普遍低估真实成本。这件事比表面上“...

发布时间:2026-06-25

AI编码Agent迭代循环如何导致token爆炸式增长?风险防控

你是不是也遇到过这样的情况?部署了一个基于OpenHands的AI编码Agent,本来想让它在SWE-bench任务上修复一个GitHub issue里的bug,结果跑着跑着就停不下来了。自纠正机制不断反思历史轨迹,每一轮都把之前的上下文和工具输出重新塞进提示里,token消耗从最初的几千直接飙升到几十万甚至上百万。等账单出来时,才发现一次任务就把预算烧掉一大半,不少团队不得不紧急下线Agent或...

发布时间:2026-06-25

开发者必读:AI Coding Agent 的隐藏成本与避坑指南

你是不是也遇到过这种情况?周末加班用AI Coding Agent帮项目修一个看起来不复杂的bug,兴冲冲跑完任务后打开账单,结果token消耗直接破万,预算一下子就紧张起来。明明是日常开发工作,怎么AI工具反而成了“烧钱机器”?不少开发者反馈,用OpenHands或Claude Code处理代码任务时,成本失控的情况越来越常见。如果不提前控制,项目开支很容易超出预期。 最近arXiv上的一篇论...

发布时间:2026-06-25

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

最近一篇 arXiv 论文把 AI Agent 在编码任务中的 token 消耗情况摆到了台面上。研究团队分析了软件开发生命周期(SDLC)中的多代理系统执行轨迹,发现代码审查阶段平均占用了 59.4% 的 token,成为整个流程里最烧钱的环节。这远不是大家想象中“让 AI 写一段代码就完事”的场景。输入 token 而非输出 token 才是成本大头,整个 agentic coding 任务的...

发布时间:2026-06-25