怎么找红中麻将微信群
频道专题页 / 重点报道 / 热点拆解
专题观察 实用干货 核心信号 · 重点摘要
深度专题

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

围绕怎么找红中麻将微信群、核心逻辑相关线索,这也对SEO写作者的综合能力提出了更高要求。
代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

这也对SEO写作者的综合能力提出了更高要求。

提示缓存与上下文管理则是直接针对输入重复浪费的实用手段。许多平台已支持 prompt caching,将不变的系统指令或工具定义设为缓存前缀,能将这部分输入 token 价格降至原价的十分之一左右。结合定期用廉价模型生成历史摘要、只保留关键状态的做法,单这一策略在实际项目中常能贡献 25-40% 的节省,避免了每轮循环都重传全量历史的低效模式。

arXiv最新论文“How Do AI Agents Spend Your Money?”给出了系统实证数据。研究分析了八个前沿LLM在SWE-bench Verified上的完整轨迹,结果显示Agentic编码任务的token消耗是普通代码推理或聊天任务的1000倍左右,而主导成本的正是输入token,而非输出token。即使启用token缓存,这一规律依然成立。

OpenHands 的轨迹示例显示,Agent 常像一个爱绕路的司机,在早期就积累大量历史上下文,后续每步决策都要反复消化这些信息,导致输入 token 持续滚雪球式增长,却未必更快抵达解决方案。

这一human-AI gap对agent deployment的实际影响正在显现。短期内,依赖传统直觉做预算容易导致ROI下滑;长期来看,它或将推动行业开发更精准的token预测工具、优化模型效率,或设计内置预算感知的Agent架构。目前模型自我预测token消耗的相关性最高仅0.39且系统性低估,值得持续跟踪,现在下结论为时尚早。

不同模型在相同代理任务上的效率差异也令人印象深刻。某些模型如Kimi-K2和Claude-Sonnet-4.5,在平均表现上比GPT-5多消耗超过150万token,这反映出架构、提示处理和工具交互机制的本质区别。企业选择部署哪款模型时,不能只看基准准确率,还必须把token经济学纳入决策框架,否则长期运营成本会超出预期。

深挖论文数据,核心原因在于代理任务的迭代循环机制。不同于一次性代码聊天,Agentic Coding需要AI反复读取历史上下文、调用工具、观察执行结果并重新规划,这导致大量输入token被反复注入提示词中。论文将其描述为一种“通信税”:代理的每一次“思考”都要为累积的对话历史和代码片段买单。简单类比,就像团队开会时每次发言前都要重述所有先前记录,而不是直接接续讨论。聊天模式上下文轻薄,而代理模式下上下文像雪球般滚大。

从 2026 年的短期视角看,个人开发者或小团队处理复杂编码任务时,单次运行轻松突破百万 token 已非罕见现象。试点阶段预算超支的风险较高,尤其在涉及频繁工具调用和自我修正的场景下。若企业仅凭几次成功测试就匆忙推向规模化,很可能面临难以预料的开支波动。行业数据显示,若不加以控制,token 使用量在未来两年内将呈现指数级增长,进一步放大这一压力。

模型选择失误也是开发者常踩的坑。默认调用最强模型处理所有任务,会在简单修复上浪费高价 token。论文对比显示,不同模型在 SWE-bench 任务上的 token 效率差异显著。建议根据任务类型分层:规划或小改动用性价比高的模型,大型重构再切换强推理模型。先跑一个低成本评估步骤估算难度和预计消耗,再决定后续路径,这个条件分支能避免大量无效支出。

不同前沿模型在相同 agentic coding 任务上的效率差异显著。例如 Kimi-K2 和 Claude-Sonnet-4.5 在部分轨迹中平均比 GPT-5 多消耗超过 150 万 token。这一差距并非单纯由模型能力决定,而是与上下文管理方式、工具调用频率以及循环迭代深度紧密相关。人类专家对任务难度的主观评估与实际 token 成本仅呈弱相关,模型自身对消耗的预测相关系数最高也仅 0.39,且普遍存在系统性低估。

另一个值得注意的现象是token消耗的随机性。同一个任务不同运行间总token差异可达30倍,且更高消耗并不必然带来更高准确率——准确率往往在中间成本区间达到峰值,之后继续迭代反而饱和。人类专家对任务难度的主观评估与实际token成本仅呈弱相关:看似棘手的bug有时Agent处理得很快,而简单修复却引发反复审查,形成token黑洞。这种感知与现实的脱节,进一步加大了开发者对tokenomics的把控难度。

在核心逻辑的赛道竞争中,SEO资讯站观察到明显的两极分化。

本文导航
若继续关注 怎么找红中麻将微信群 与 核心逻辑 相关内容,可查看 新闻资讯频道, 或直接阅读 代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解Grab股票长期持有 vs 短期交易:GRAB 2026-2028投资周期对比 这些同主题页面。
本文标题:代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解
固定链接:http://www5.name.ss7a.cn/images/6081.html
说明:本文按当前主题进行整理与归档,便于从摘要、正文和相关内容几个层面做连续查看。

延伸阅读

更多

从 arXiv 论文看 AI 代理经济的未来:token 预测与透明定价

最近一篇 arXiv 论文把 AI 代理的成本问题摆到了台面上。论文标题直指“How Do AI Agents Spend Your Money”,聚焦代理在复杂工作流中的 token 消耗。随着 AI 代理被越来越多地用于编码等实际任务,token 用量快速增长,三个核心问题随之浮现:代理把 token 花在了哪里?哪些模型更省 token?代理能否在执行任务前预测自己的 token 用量? ...

发布时间:2026-06-25

AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘

最近,一篇来自arXiv的论文把AI Agent的“花钱”习惯摆上了台面。研究团队分析了八个前沿大模型在SWE-bench Verified基准上的运行轨迹,结果显示AI编码Agent在复杂编码任务中token消耗远超普通聊天或代码推理任务,高达1000倍。更让人意外的是,同一个任务多次运行,总token用量差异能达到30倍,输入token成了成本大头。这件事比表面看起来复杂得多,随机性才是背后最...

发布时间:2026-06-25

开发者必读:AI Coding Agent 的隐藏成本与避坑指南

你是不是也遇到过这种情况?周末加班用AI Coding Agent帮项目修一个看起来不复杂的bug,兴冲冲跑完任务后打开账单,结果token消耗直接破万,预算一下子就紧张起来。明明是日常开发工作,怎么AI工具反而成了“烧钱机器”?不少开发者反馈,用OpenHands或Claude Code处理代码任务时,成本失控的情况越来越常见。如果不提前控制,项目开支很容易超出预期。 最近arXiv上的一篇论...

发布时间:2026-06-25

AI Agent任务复杂度与token消耗的弱相关性:人类直觉为何失效

最近,一篇来自arXiv的论文把AI Agent成本控制的老问题摆上了台面。研究团队系统分析了八个前沿大模型在SWE-bench Verified基准上的agentic coding轨迹,结果显示:人类专家打分的任务复杂度,与AI Agent实际消耗的token数量之间,只有很弱的相关性。这件事听起来简单,却直接戳破了很多开发者长期以来的直觉假设。 AI Agent token消耗这个话题,过去...

发布时间:2026-06-25

本地 vs 云端 AI Agent:token 消耗与隐私成本权衡

很多开发者最近在用AI Agent处理编码任务时,都被一张突然飙升的token账单吓了一跳。原本以为只是偶尔调用几次,结果月消耗轻松破万,甚至几万块。云端调用方便,性能强劲,但隐私数据要上传;本地部署数据不出域,长期看省钱,却又担心模型能力跟不上或者硬件成本太高。选哪个都觉得有点亏,这正是当前不少团队面临的真实困境。 arXiv上刚刚发布的论文《How Do AI Agents Spend Yo...

发布时间:2026-06-25

如何优化 AI Coding Agent 的 token 消耗?实用成本控制策略

你是不是也遇到过这样的情况:用 AI Coding Agent 跑一个 SWE-bench 任务,本以为几块钱就能搞定,结果账单跳出来,上百万 token 消耗,成本轻松破百元。任务越复杂,token 用量就越不可控,跑几次下来,小团队的预算直接心疼。 很多开发者一开始对 AI Agent 抱有期待,觉得它能自动规划、执行、修复代码,效率翻倍。可现实是,agentic workflow 一旦跑起...

发布时间:2026-06-25