重点观察

AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析

围绕上下分一元一分跑的快群、增强决策力相关线索,上下分一元一分跑的快群项目的成功率,与前期需求梳理的细致程度呈现较强的正相关。这一点在多个行业报告中都有体现。
热点记录员 2026-04-28 05:12:17 阅读 712
AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析
内容提要
围绕上下分一元一分跑的快群、增强决策力相关线索,上下分一元一分跑的快群项目的成功率,与前期需求梳理的细致程度呈现较强的正相关。这一点在多个行业报告中都有体现。

上下分一元一分跑的快群项目的成功率,与前期需求梳理的细致程度呈现较强的正相关。这一点在多个行业报告中都有体现。

除了模型间差异,论文还指出人为评定的任务难度与实际 token 消耗仅呈弱相关。这说明人类直觉判断的“复杂程度”,与 Agent 真实执行时的计算努力存在明显脱节。一些看似简单的 Bug 修复,却可能因模型的迭代路径而烧掉巨量 token。这种感知与现实的差距,进一步增加了预算规划的难度,也解释了为什么许多团队在部署后才发现成本远超预期。

最近arXiv上发布的论文《How Do AI Agents Spend Your Money?》对agentic coding任务的token消耗进行了系统性分析,基于八个前沿模型在SWE-bench Verified基准上的执行轨迹。研究发现,AI Agent在复杂编码场景下的token用量远超普通代码推理或聊天任务,差距可达1000倍甚至更高,且输入token而非输出token成为主导成本驱动因素。

实际执行过程中,Agent并非一次性完成任务,而是需要反复读取历史对话、工具返回结果、代码仓库片段以及先前失败路径。这些海量信息全部作为输入喂给模型,一轮轮循环下来,输入token迅速占据总消耗的绝大部分。传统聊天任务中输入输出比例相对均衡,而在agentic coding里,这种动态上下文堆积让输入成本成为真正的黑洞。

大多数媒体和开发者目前对AI Agent的关注仍集中在效率提升上。SWE-bench等基准显示agentic系统在软件工程任务中表现亮眼,行业普遍热议其潜在万亿级价值。主流观点倾向于认为,随着模型迭代进步,token成本会逐步可控甚至快速下降。不少团队在试点阶段感受到产出加速,便默认预算风险可管理。

相比之下,Kimi K2 和 Claude Sonnet 4.5 在 token 消耗上处于较高区间,平均多出 150 万 token 以上。可能的原因包括更长的迭代循环、不同的上下文管理方式,或在处理大型代码库时更容易触发反复调试流程。论文没有给出完整机制解释,但数据清晰表明,这种高消耗并非总是由任务本身驱动,而是模型行为特征的体现。

然而,云端方案的成本波动性远超预期。同一任务不同运行的token消耗可相差30倍,且更高消耗并不必然带来更高准确率——准确率往往在中间成本区间达到峰值,继续投入反而边际效应递减。更关键的是,所有上下文和代码数据都需要上传云端,对涉及公司核心知识产权或敏感业务的团队而言,隐私泄露风险始终是隐忧。低频偶尔使用时还可控,高频开发场景下账单失控几乎是必然。

不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常更高,所以大家自然把注意力放在缩短回复、精炼最终答案、限制思考步骤上。以为这样就能把成本压下来。但在Agentic流程中,多轮迭代、工具调用和上下文累积让输入端的消耗像雪球一样滚大。账单拉出来一看,输入token占比远超预期,输出反而成了次要部分。

纠正确认这个误区后,预算规划就从被动挨打转向主动的输入优化工程。值得持续跟踪的是,随着Agent场景快速演进,未来上下文压缩技术或原生长上下文架构可能带来新变量,但当前阶段把注意力转向输入主导,已是能立刻见效的调整方向。

行业里讨论AI Agent成本时,焦点往往落在模型API定价和输出token单价上。开发者普遍认为,只要控制生成长度或选用更便宜的模型,就能把开支压住。论坛和社区反馈也多集中在“Agent能处理真实软件工程问题,但跑一次费用像猜谜”。这些观察有道理,却忽略了一个核心盲区:运行间的巨大随机波动,以及多耗token未必换来更高准确率的实证。主流认知仍停留在表面定价,少有人系统拆解agentic流程本身的内在消耗机制。

论文数据揭示了软件开发生命周期各阶段token分布的显著不均衡。代码审查不仅占比最高,其输入token比例也达到51.4%,远高于输出24.7%,因为Agent需要反复注入已有代码、上下文和历史修改进行分析。相比之下,编码阶段输出token占比更高,符合生成新内容的直观逻辑。这种阶段性差异说明,单纯追求更强模型未必能线性降低成本。

% 的部署与 7% 的规模化,这个对比说明一切。

固定信息

固定链接:http://www5.name.ss7a.cn/6101.html

作者简介:内容复核人员主要处理内容池补料与资讯页面维护,侧重把分散素材整理成清晰内容,常见于站内内容更新流程,让文章页在移动端和 PC 端都保持清晰可读,并根据当期话题做差异化补充。

互动量:评论 4 / 点赞 4669

本文标题:AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析
固定链接:http://www5.name.ss7a.cn/6101.html
说明:本页内容以主题整理、信息补充和相关阅读为主,适合按频道结构做连续查看。

相关内容

进入频道

AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘

最近,一篇来自arXiv的论文把AI Agent的“花钱”习惯摆上了台面。研究团队分析了八个前沿大模型在SWE-bench Verified基准上的运行轨迹,结果显示AI编码Agent在复杂编码任务中token消耗远超普通聊天或代码推理任务,高达1000倍。更让人意外的是,同一个任务多次运行,总token用量差异能达到30倍,输入token成了成本大头。这件事比表面看起来复杂得多,随机性才是背后最...

发布时间:2026-06-25

AI Agent任务复杂度与token消耗的弱相关性:人类直觉为何失效

最近,一篇来自arXiv的论文把AI Agent成本控制的老问题摆上了台面。研究团队系统分析了八个前沿大模型在SWE-bench Verified基准上的agentic coding轨迹,结果显示:人类专家打分的任务复杂度,与AI Agent实际消耗的token数量之间,只有很弱的相关性。这件事听起来简单,却直接戳破了很多开发者长期以来的直觉假设。 AI Agent token消耗这个话题,过去...

发布时间:2026-06-25

代码审查阶段为什么吃掉 AI Agent 近 60% token?开发流程 tokenomics 拆解

最近一篇 arXiv 论文把 AI Agent 在编码任务中的 token 消耗情况摆到了台面上。研究团队分析了软件开发生命周期(SDLC)中的多代理系统执行轨迹,发现代码审查阶段平均占用了 59.4% 的 token,成为整个流程里最烧钱的环节。这远不是大家想象中“让 AI 写一段代码就完事”的场景。输入 token 而非输出 token 才是成本大头,整个 agentic coding 任务的...

发布时间:2026-06-25

Agentic Coding 任务比普通代码聊天贵1000倍?论文拆解AI代理真实成本

最近,一篇arXiv论文把开发者圈子里的一个隐性痛点摆上了台面:Agentic Coding任务的token消耗,竟然是普通代码聊天或简单推理任务的1000倍左右。这不是夸张的比喻,而是基于SWE-bench Verified基准的实测数据。论文作者系统分析了八款前沿大模型在代理编码场景下的轨迹,发现输入token才是真正的成本大头,而不是大家以为的输出生成。表面上看,AI代理能自主迭代、调试、修...

发布时间:2026-06-25

从 arXiv 论文看 AI 代理经济的未来:token 预测与透明定价

最近一篇 arXiv 论文把 AI 代理的成本问题摆到了台面上。论文标题直指“How Do AI Agents Spend Your Money”,聚焦代理在复杂工作流中的 token 消耗。随着 AI 代理被越来越多地用于编码等实际任务,token 用量快速增长,三个核心问题随之浮现:代理把 token 花在了哪里?哪些模型更省 token?代理能否在执行任务前预测自己的 token 用量? ...

发布时间:2026-06-25

开发者必读:AI Coding Agent 的隐藏成本与避坑指南

你是不是也遇到过这种情况?周末加班用AI Coding Agent帮项目修一个看起来不复杂的bug,兴冲冲跑完任务后打开账单,结果token消耗直接破万,预算一下子就紧张起来。明明是日常开发工作,怎么AI工具反而成了“烧钱机器”?不少开发者反馈,用OpenHands或Claude Code处理代码任务时,成本失控的情况越来越常见。如果不提前控制,项目开支很容易超出预期。 最近arXiv上的一篇论...

发布时间:2026-06-25