深度专题

代码审查阶段为什么吃掉 AI Agent 近 60% token？开发流程 tokenomics 拆解

围绕谁有一元一分跑的快群、创新技巧相关线索，这提醒我们，SEO的核心已转向内容价值的深度构建。

这提醒我们，SEO的核心已转向内容价值的深度构建。

不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高，所以大家自然把注意力放在缩短回复上，精炼最终答案，限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的Agentic流程时，输入端的消耗像雪球一样滚大。账单拉出来一看，输入token占比远超预期，输出反而成了小头。

最近一篇arXiv论文《Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering》分析了ChatDev框架下30个软件开发任务的执行轨迹，结果显示代码审查阶段平均消耗了59.4%的token，成为整个agentic coding流程中最主要的成本中心。这远超初始设计（2.4%）和编码（8.6%）等前期阶段。

模型之间的效率差异也值得注意。在相同任务上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观判断，与实际token成本只有弱相关，相关系数不高。这说明凭经验预估Agent开销常常偏差很大，主流误区让预算失控。

论文核心数据显示，同一任务不同运行的token消耗可相差高达30倍，输入token而非输出token才是主导成本的因素。准确率通常在中等成本区间达到峰值，继续增加消耗反而出现饱和。这说明AI Agent的“努力”更多体现在反复吞吐上下文、调用工具和试错循环上，而不是像人类那样通过深化“脑力”攻克逻辑深度。

对比来看，token成本维度上云端按量付费易失控，本地则接近零开销；隐私安全上云端数据上云存在泄露风险，本地数据主权得到保障；延迟方面本地内网响应更快，而云端受网络波动影响。论文还指出，人为评定的任务难度与实际token消耗仅呈弱相关，这暴露了我们对复杂度直觉与Agent真实开销之间的鸿沟。

模型选择进一步放大了这种风险差异。在相同SWE-bench类任务上，部分模型如Kimi-K2或Claude-Sonnet系列的平均token消耗明显高于GPT-5等高效选项，差异可达百万token级别。人类专家对任务难度的主观判断，与Agent实际token支出之间的相关性也较弱，说明我们对复杂度的直觉常常低估了迭代循环带来的隐形成本。模型自身对token使用的预测准确率同样有限，最高相关系数仅在0.39左右，且系统性低估真实消耗。

论文重点考察了需要多步工具调用和上下文累积的agentic tasks。在SWE-bench这类真实软件工程场景中，Agent不断阅读代码、调用工具、生成补丁、验证测试，导致输入token快速膨胀。即使启用缓存，上下文累积效应仍主导整体开销。输出token虽重要，但远不是成本大头。这种输入驱动的特性，让传统“控制生成长度就能省钱”的思路显得不够充分。

深究原因，Agentic Coding的迭代循环是主要推手。与一次性代码聊天不同，代理需要反复读取历史上下文、观察工具结果、再规划下一步。这导致大量输入token被反复注入提示词，而输出token占比相对有限。论文形象地将此称为“通信税”：代理的“思考”过程本质上是频繁的内部沟通，每次沟通都要为累积的上下文买单。简单类比，就像团队开会时每次发言前都要重述全部会议记录，而不是直接接续上文。

你部署AI Agent时，是不是总盯着输出token定价，以为控制生成长度就能省钱？结果账单拉出来一看，输入token却占了大头——这正是大多数团队正在踩的坑。

论文进一步揭示，同一任务的不同运行之间，总token消耗的随机性极高，差异可达30倍之多。有趣的是，高token消耗并不必然带来更高准确率；相反，准确率往往在中位成本区间达到峰值，继续增加消耗后收益迅速饱和。这意味着盲目延长迭代轮次或允许Agent“多跑几遍”，未必是提升成功率的理性选择，反而可能直接放大预算风险。

数据表明，采用分层灰度的项目，其问题暴露周期平均缩短了近四成。

本文导航

若继续关注谁有一元一分跑的快群与创新技巧相关内容，可查看新闻资讯频道，或直接阅读代码审查阶段为什么吃掉 AI Agent 近 60% token？开发流程 tokenomics 拆解、 26岁女孩杭州美容买房故事引热议：普通技能青年如何复制“评人才—领补贴—买房”三步法这些同主题页面。

文章信息

作者：新闻归纳员

简介：新闻归纳编辑持续跟进把热点素材、正文段落和相关入口统一整理，重点覆盖频道内容更新与资讯页面维护，减少内容拼接感，增强频道化呈现，并根据当期话题做差异化补充。

发布时间：2026-04-28 05:12:13

专题词：谁有一元一分跑的快群 / 创新技巧

核心摘要

摘要

围绕谁有一元一分跑的快群、创新技巧相关线索，这提醒我们，SEO的核心已转向内容价值的深度构建。

数据热度

阅读 729 点赞 4114 评论 5

本页延伸：首页 / 栏目列表 / 中国AI专利全球占比60%如何支撑国产开源大模型下载量破100亿 / 国产开源大模型下载量破100亿次：DeepSeek、GLM、Kimi等热门模型实用性能横评

本文标题：代码审查阶段为什么吃掉 AI Agent 近 60% token？开发流程 tokenomics 拆解
固定链接：http://www5.name.ss7a.cn/6081.html
说明：本文按当前主题进行整理与归档，便于从摘要、正文和相关内容几个层面做连续查看。

代码审查阶段为什么吃掉 AI Agent 近 60% token？开发流程 tokenomics 拆解

延伸阅读

本地 vs 云端 AI Agent：token 消耗与隐私成本权衡

开发者必读：AI Coding Agent 的隐藏成本与避坑指南

哪款大模型在 Agentic Coding 中最省 token？8 大前沿模型对比

从 arXiv 论文看 AI 代理经济的未来：token 预测与透明定价

AI编码Agent迭代循环如何导致token爆炸式增长？风险防控

Agentic Coding 任务比普通代码聊天贵1000倍？论文拆解AI代理真实成本