近期数据显示,哪里有1块1分跑的快群相关页面的跳出率与内容相关性呈现强负相关。
开发者长期以来习惯用人类经验预估AI Agent成本,认为任务逻辑越复杂、涉及多轮调试越多,token开销就越高。这种直觉在普通聊天或单步推理场景中或许成立,但在agentic workflow里却频频失效。论文指出,agentic任务整体比普通代码推理高出约1000倍token消耗,但内部变异远比表面数据更剧烈,主流讨论往往只停留在“整体昂贵”层面,忽略了随机性和模型差异带来的系统性偏差。
当然,成本趋势仍存在不确定性。如果上下文优化、提示缓存以及更高效模型得到普及,单任务开销有望得到更好控制;反之,多代理协作中的通信税若长期未解,规模化ROI的实现时间可能会延后。数据支持这个方向,但样本量和实际落地场景仍有局限,值得持续跟踪,现在下结论为时尚早。
最近一篇arXiv论文将AI代理在编码任务中的token消耗模式首次系统性地摊开分析。研究追踪了八个前沿大模型在SWE-bench Verified基准上的完整轨迹,发现代理任务的token开销远超普通代码推理或聊天场景。这不仅暴露了成本黑箱,还直接挑战了行业对代理效率的乐观预期。AI代理看似能处理复杂多步流程,实际却在反复交互中悄然推高支出,表面繁荣之下隐藏着更棘手的经济矛盾。
把两者并列对比,token成本维度上云端按量付费易失控,本地几乎为零只付电费和折旧;隐私安全上云端数据上云有泄露隐患,本地不出域更安心;延迟性能上本地内网更快,云端受网络制约;适用任务上云端处理高难度更具优势,本地适合中低难度或可拆解场景;部署难度上云端开箱即用,本地需前期技术投入。论文还发现,人为评定的任务难度与实际token消耗仅弱相关,这说明我们对复杂度的直觉有时与Agent真实开销并不对位。
除了模型间效率差异,研究还发现人为评定的任务难度与实际token消耗仅呈弱相关。这说明人类直觉判断的“复杂Bug”,在Agent执行时所消耗的计算努力可能完全不同。有些看似简单的修复,却会意外烧掉巨量token,而一些被认为棘手的任务反而消耗相对可控。这种认知鸿沟,进一步放大了Agentic Coding在成本控制上的不确定性。
纠正确认这个误区后,预算不再是猜谜游戏,而是转向可控的输入优化工程。优先在输入端发力,比如提示精炼、启用prompt caching,以及精细控制RAG检索,这些手段能显著降低边际消耗,而模型选择和轨迹监控则帮助避开效率低下的选项。
对行业则意味着可持续商业模式的重构。如果模型预测能力快速提升,固定订阅或有回暖空间,但若 Agent 链路继续复杂化,按 token 或混合模式很可能成为主流。
你是不是也遇到过这样的情况:用AI Coding Agent跑一个SWE-bench任务,本以为几块钱就能搞定,结果账单跳出来,上百万token消耗,成本轻松破百元。任务越复杂,token用量就越不可控,跑几次下来,小团队的预算直接心疼。
模型自身预测消耗的能力同样有限,相关系数最高仅0.39,且系统性低估真实用量。这意味着开发者很难在任务启动前就对账单心里有底。输入token主导成本的现实,暴露了agentic workflow里一个普遍痛点——每轮把历史对话、工具输出、代码仓库全量塞进上下文,相当于在默默为重复内容买单。
token使用量还表现出高度的随机性。同一任务在不同运行之间,总消耗差异可高达30倍。更有意思的是,高token消耗并不必然带来更高准确率;准确率往往在中位成本区间达到峰值,继续增加迭代反而进入收益递减的饱和状态。这意味着盲目延长Agent运行时间、让它多试几轮,未必是提升可靠性的有效路径。
我的观察是,部分先行者的经验正在成为行业共同的参考坐标。