谁有一元一分跑的快群
频道专题页 / 重点报道 / 热点拆解
专题观察 惊人真相 核心信号 · 重点摘要
深度专题

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

围绕谁有一元一分跑的快群、创新技巧相关线索,这提醒我们,SEO的核心已转向内容价值的深度构建。
代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

这提醒我们,SEO的核心已转向内容价值的深度构建。

不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的Agentic流程时,输入端的消耗像雪球一样滚大。账单拉出来一看,输入token占比远超预期,输出反而成了小头。

最近一篇arXiv论文《Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering》分析了ChatDev框架下30个软件开发任务的执行轨迹,结果显示代码审查阶段平均消耗了59.4%的token,成为整个agentic coding流程中最主要的成本中心。这远超初始设计(2.4%)和编码(8.6%)等前期阶段。

模型之间的效率差异也值得注意。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观判断,与实际token成本只有弱相关,相关系数不高。这说明凭经验预估Agent开销常常偏差很大,主流误区让预算失控。

论文核心数据显示,同一任务不同运行的token消耗可相差高达30倍,输入token而非输出token才是主导成本的因素。准确率通常在中等成本区间达到峰值,继续增加消耗反而出现饱和。这说明AI Agent的“努力”更多体现在反复吞吐上下文、调用工具和试错循环上,而不是像人类那样通过深化“脑力”攻克逻辑深度。

对比来看,token成本维度上云端按量付费易失控,本地则接近零开销;隐私安全上云端数据上云存在泄露风险,本地数据主权得到保障;延迟方面本地内网响应更快,而云端受网络波动影响。论文还指出,人为评定的任务难度与实际token消耗仅呈弱相关,这暴露了我们对复杂度直觉与Agent真实开销之间的鸿沟。

模型选择进一步放大了这种风险差异。在相同SWE-bench类任务上,部分模型如Kimi-K2或Claude-Sonnet系列的平均token消耗明显高于GPT-5等高效选项,差异可达百万token级别。人类专家对任务难度的主观判断,与Agent实际token支出之间的相关性也较弱,说明我们对复杂度的直觉常常低估了迭代循环带来的隐形成本。模型自身对token使用的预测准确率同样有限,最高相关系数仅在0.39左右,且系统性低估真实消耗。

论文重点考察了需要多步工具调用和上下文累积的agentic tasks。在SWE-bench这类真实软件工程场景中,Agent不断阅读代码、调用工具、生成补丁、验证测试,导致输入token快速膨胀。即使启用缓存,上下文累积效应仍主导整体开销。输出token虽重要,但远不是成本大头。这种输入驱动的特性,让传统“控制生成长度就能省钱”的思路显得不够充分。

深究原因,Agentic Coding的迭代循环是主要推手。与一次性代码聊天不同,代理需要反复读取历史上下文、观察工具结果、再规划下一步。这导致大量输入token被反复注入提示词,而输出token占比相对有限。论文形象地将此称为“通信税”:代理的“思考”过程本质上是频繁的内部沟通,每次沟通都要为累积的上下文买单。简单类比,就像团队开会时每次发言前都要重述全部会议记录,而不是直接接续上文。

你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单拉出来一看,输入token却占了大头——这正是大多数团队正在踩的坑。

论文进一步揭示,同一任务的不同运行之间,总token消耗的随机性极高,差异可达30倍之多。有趣的是,高token消耗并不必然带来更高准确率;相反,准确率往往在中位成本区间达到峰值,继续增加消耗后收益迅速饱和。这意味着盲目延长迭代轮次或允许Agent“多跑几遍”,未必是提升成功率的理性选择,反而可能直接放大预算风险。

数据表明,采用分层灰度的项目,其问题暴露周期平均缩短了近四成。

本文导航
本文标题:代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解
固定链接:http://www5.name.ss7a.cn/6081.html
说明:本文按当前主题进行整理与归档,便于从摘要、正文和相关内容几个层面做连续查看。

延伸阅读

更多

本地 vs 云端 AI Agent:token 消耗与隐私成本权衡

很多开发者最近在用AI Agent处理编码任务时,都被一张突然飙升的token账单吓了一跳。原本以为只是偶尔调用几次,结果月消耗轻松破万,甚至几万块。云端调用方便,性能强劲,但隐私数据要上传;本地部署数据不出域,长期看省钱,却又担心模型能力跟不上或者硬件成本太高。选哪个都觉得有点亏,这正是当前不少团队面临的真实困境。 arXiv上刚刚发布的论文《How Do AI Agents Spend Yo...

发布时间:2026-06-25

开发者必读:AI Coding Agent 的隐藏成本与避坑指南

你是不是也遇到过这种情况?周末加班用AI Coding Agent帮项目修一个看起来不复杂的bug,兴冲冲跑完任务后打开账单,结果token消耗直接破万,预算一下子就紧张起来。明明是日常开发工作,怎么AI工具反而成了“烧钱机器”?不少开发者反馈,用OpenHands或Claude Code处理代码任务时,成本失控的情况越来越常见。如果不提前控制,项目开支很容易超出预期。 最近arXiv上的一篇论...

发布时间:2026-06-25

哪款大模型在 Agentic Coding 中最省 token?8 大前沿模型对比

你是不是也遇到过这种情况:用AI Agent帮忙写代码或修复Bug,任务一启动,token消耗就失控。跑完一个复杂任务,账单直接翻倍,却搞不清哪个模型更省钱。很多团队一开始只盯着准确率,结果部署后才发现,token成本成了最大隐患。选错模型,不仅开发效率打折,整个Agent项目都可能变得不划算。 最近arXiv上的一篇论文《How Do AI Agents Spend Your Money?》给...

发布时间:2026-06-25

从 arXiv 论文看 AI 代理经济的未来:token 预测与透明定价

最近一篇 arXiv 论文把 AI 代理的成本问题摆到了台面上。论文标题直指“How Do AI Agents Spend Your Money”,聚焦代理在复杂工作流中的 token 消耗。随着 AI 代理被越来越多地用于编码等实际任务,token 用量快速增长,三个核心问题随之浮现:代理把 token 花在了哪里?哪些模型更省 token?代理能否在执行任务前预测自己的 token 用量? ...

发布时间:2026-06-25

AI编码Agent迭代循环如何导致token爆炸式增长?风险防控

你是不是也遇到过这样的情况?部署了一个基于OpenHands的AI编码Agent,本来想让它在SWE-bench任务上修复一个GitHub issue里的bug,结果跑着跑着就停不下来了。自纠正机制不断反思历史轨迹,每一轮都把之前的上下文和工具输出重新塞进提示里,token消耗从最初的几千直接飙升到几十万甚至上百万。等账单出来时,才发现一次任务就把预算烧掉一大半,不少团队不得不紧急下线Agent或...

发布时间:2026-06-25

Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本

最近,一篇arXiv论文把开发者圈子里的一个隐性痛点摆上了台面:Agentic Coding任务的token消耗,竟然是普通代码聊天或简单推理任务的1000倍左右。这不是夸张的比喻,而是基于SWE-bench Verified基准的实测数据。论文作者系统分析了八款前沿大模型在代理编码场景下的轨迹,发现输入token才是真正的成本大头,而不是大家以为的输出生成。表面上看,AI代理能自主迭代、调试、修...

发布时间:2026-06-25