这也验证了行业内“内容为王”判断的持续有效性。
总体而言,这一发现让“AI Agent能显著降低开发成本”的预期变得更为 nuanced。短期内,开发者可通过监控单任务token轨迹、优化prompt设计或拆分审查子任务来缓解压力;长期看,tokenomics或将成为agentic software engineering的新瓶颈,推动上下文缓存、多代理分工等技术演进。但当前研究样本仍有限,实际生产环境下的表现可能因任务类型和框架差异而有所不同,值得持续跟踪后续优化研究。
另一个反直觉点是,人类专家评定的任务难度与实际 token 消耗仅呈弱相关。某些在人类看来棘手的 GitHub issue,Agent 可能迅速找到高效路径;反之,一些看似简单的修复却让 Agent 陷入反复试错循环,token 开销远超预期。这反映出当前 Agent 的“思考路径”与人类认知之间仍存在明显鸿沟,也提醒我们不能简单用人工判断来预估部署成本。
此外,token使用的高度随机性加剧了成本不可预测性。论文观察到,同一任务不同运行间的总token消耗差异可达30倍,而准确率并不随token投入线性提升,反而常常在中间成本区间达到峰值,继续增加投入后收益边际递减。模型自身预测token消耗的能力也较弱,相关性最高仅0.39,且存在系统性低估。这意味着开发者在启动任务前难以准确预判开支,团队预算控制面临实际挑战。
展望 2026 年,个人开发者或小团队在复杂编码任务上的单次运行,token 消耗轻松突破百万并非罕见,试点阶段预算超支的风险因此升高。企业若仅凭单次测试就推动规模化,很可能面临意外开支压力。长期看,企业级 TCO 中 token 费用可能仅占 15-20%,监控、编排、安全和人工 oversight 等环节将占据更大份额。
许多开发者在部署AI编码Agent时,都曾经历过这样的场景:原本一个简单的GitHub issue修复任务,使用基于OpenHands的Agent在SWE-bench上运行,本以为几千token就能搞定,结果自纠正和反思循环反复启动,每一轮都将完整历史轨迹、工具输出和先前推理重新塞入提示,token消耗迅速从几千级飙升至几十万甚至百万级别。账单一出,往往让整个项目预算吃紧,甚至迫使团队临时下线Agent。
人类专家对任务难度的主观评估,与Agent实际token成本仅呈现弱相关。这一点目前行业内仍有不同声音。一些看似棘手的bug,Agent可能快速处理;而简单修复却因上下文维护反复触发审查,烧掉大量资源。这种感知脱节,进一步放大了tokenomics管理的复杂性。
从更广视角看,这一human-AI gap短期内会放大成本控制的挑战,尤其当团队将Agent推向生产环境时,随机波动让固定预算变得难以把控。长期而言,它或将推动行业加速开发token预测工具、优化模型效率,以及设计内置预算感知机制的Agent架构。不过,当前前沿模型自我预测token消耗的相关性最高仅0.39,且存在系统性低估,数据支持这个方向,但样本量和任务覆盖仍有限。
模型路由是性价比最高的一招。不是所有步骤都需要最贵的顶级模型。复杂规划用Claude或GPT系列确保方向正确,子任务执行、简单代码生成就切换到Kimi或小型高效模型。在LangGraph里设置路由规则,根据复杂度或上下文长度自动分流,一个修复GitHub issue的agent就能把整体成本降30-50%。
大多数讨论仍停留在代理带来的效率跃升上。在SWE-bench这类真实软件工程基准中,顶级代理系统已展现出不俗表现,许多开发者相信,用好Agentic Coding就能让AI像资深工程师一样独立处理复杂项目,从而显著减少人力投入。主流观点倾向乐观,认为这标志着从简单聊天助手向真正工作伙伴的转变,用对它就能放大生产力。
除了模型间差异,论文还指出人为评定的任务难度与实际 token 消耗仅呈弱相关。这说明人类直觉判断的“复杂程度”,与 Agent 真实执行时的计算努力存在明显脱节。一些看似简单的 Bug 修复,却可能因模型的迭代路径而烧掉巨量 token。这种感知与现实的差距,进一步增加了预算规划的难度,也解释了为什么许多团队在部署后才发现成本远超预期。
% 和 7% 的剪刀差,说明一切。