内容会尽量保持中立,但判断会基于实际案例。
许多开发者初次尝试AI Agent时,往往被初始代码生成环节的流畅度吸引,认为模型越强整体开销就越可控。主流讨论也多集中在“一次任务烧掉百万token”的生成阶段,忽略了后续审查与迭代的积累效应。论文却揭示了一个明显盲区:大家习惯把注意力放在生成输出上,却很少追踪审查、验证这些高度上下文依赖的环节如何悄然推高总成本。单纯看生成,AI似乎在压缩开发时间;一旦进入完整生命周期,情况就不再那么乐观。
你是不是也遇到过这种情况?用OpenHands或Claude Code修复一个看似简单的bug,任务跑完后账单却显示token消耗远超预期。arXiv上《How Do AI Agents Spend Your Money?》等最新论文显示,agentic coding任务的token消耗比普通代码聊天高出约1000倍,且输入token而非输出token主导整体成本。
很多开发者在用AI Agent处理编码任务时,都被突然飙升的token账单惊醒。原本以为只是简单调用几次,结果月消耗轻松破万甚至数万,云端调用虽性能强劲,却让核心代码数据不得不上传;本地部署数据不出域、长期成本可控,却又担心模型能力或硬件门槛跟不上。这正是当前不少团队面临的真实困境:选哪个都觉得在成本与安全间妥协。
深层数据显示,代理任务的高成本源于其迭代循环机制。不同于一次性代码聊天,agentic coding需要AI反复读取累积的上下文、调用工具、观察执行结果并重新规划,这导致每次循环都将大量历史对话、代码片段和日志重新注入提示词中。论文将此描述为“通信税”——代理的“思考”本质上是频繁的内部沟通,而每次沟通都要为不断膨胀的上下文买单。简单类比,就像会议中每次发言前都要重述全部记录,而非直接延续话题。
模型之间的效率差异也非常显著。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观判断,与实际token成本只有弱相关。这说明我们凭经验预估Agent会花多少钱,常常偏差很大。
模型间的token效率差异也相当显著。在相同任务设置下,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这一差距对需要频繁部署Agent的团队而言,并非小事。它直接指向一个现实:并非所有前沿模型在agentic coding场景下都同样经济,选择合适的模型能带来可观的成本节约,而非单纯追求参数规模。
最近,一篇arXiv论文把AI Agent在编码场景下的真实成本问题摆到了台面上。研究者系统分析了八个前沿大模型在SWE-bench Verified任务上的执行轨迹,结果显示agentic coding任务的token消耗远超传统聊天或代码推理,输入token成了最大的成本黑洞。这件事比很多人以为的“AI能写代码就省钱”复杂得多,烧钱速度也远超表面印象。
你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单爆炸,却发现输入token占了大头——这正是大多数团队正在踩的坑。
本地方案的权衡同样现实。开源模型与前沿闭源模型在极复杂、多文件依赖的任务中仍有性能差距,初始部署和后续运维需要一定技术储备,高性能GPU或充足内存的硬件投入也不容忽视。如果任务超出本地模型能力范围,还可能需要反复调试或引入混合调用,整体体验会打一定折扣。
表面上看,AI Agent编码被宣传为高效工具,能自动迭代调试、处理复杂仓库,帮团队缩短开发周期。主流报道里常强调输出质量和速度,token费用虽高但被视为值得的投资。可实际运行时,大部分注意力都集中在最终生成的代码片段上,很少有人留意Agent在多轮交互中如何不断把历史对话、工具返回、失败日志和仓库片段塞进输入窗口。这些隐性输入累积起来,迅速把总成本拉高,跟传统单轮任务的输入输出平衡形成鲜明对比。
最全盘点的潜力不虚,但变现路径仍需探索。