这提醒我们,SEO的核心已转向内容价值的深度构建。
不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的Agentic流程时,输入端的消耗像雪球一样滚大。账单拉出来一看,输入token占比远超预期,输出反而成了小头。
最近一篇arXiv论文《Tokenomics: Quantifying Where Tokens Are Used in Agentic Software Engineering》分析了ChatDev框架下30个软件开发任务的执行轨迹,结果显示代码审查阶段平均消耗了59.4%的token,成为整个agentic coding流程中最主要的成本中心。这远超初始设计(2.4%)和编码(8.6%)等前期阶段。
模型之间的效率差异也值得注意。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观判断,与实际token成本只有弱相关,相关系数不高。这说明凭经验预估Agent开销常常偏差很大,主流误区让预算失控。
论文核心数据显示,同一任务不同运行的token消耗可相差高达30倍,输入token而非输出token才是主导成本的因素。准确率通常在中等成本区间达到峰值,继续增加消耗反而出现饱和。这说明AI Agent的“努力”更多体现在反复吞吐上下文、调用工具和试错循环上,而不是像人类那样通过深化“脑力”攻克逻辑深度。
对比来看,token成本维度上云端按量付费易失控,本地则接近零开销;隐私安全上云端数据上云存在泄露风险,本地数据主权得到保障;延迟方面本地内网响应更快,而云端受网络波动影响。论文还指出,人为评定的任务难度与实际token消耗仅呈弱相关,这暴露了我们对复杂度直觉与Agent真实开销之间的鸿沟。
模型选择进一步放大了这种风险差异。在相同SWE-bench类任务上,部分模型如Kimi-K2或Claude-Sonnet系列的平均token消耗明显高于GPT-5等高效选项,差异可达百万token级别。人类专家对任务难度的主观判断,与Agent实际token支出之间的相关性也较弱,说明我们对复杂度的直觉常常低估了迭代循环带来的隐形成本。模型自身对token使用的预测准确率同样有限,最高相关系数仅在0.39左右,且系统性低估真实消耗。
论文重点考察了需要多步工具调用和上下文累积的agentic tasks。在SWE-bench这类真实软件工程场景中,Agent不断阅读代码、调用工具、生成补丁、验证测试,导致输入token快速膨胀。即使启用缓存,上下文累积效应仍主导整体开销。输出token虽重要,但远不是成本大头。这种输入驱动的特性,让传统“控制生成长度就能省钱”的思路显得不够充分。
深究原因,Agentic Coding的迭代循环是主要推手。与一次性代码聊天不同,代理需要反复读取历史上下文、观察工具结果、再规划下一步。这导致大量输入token被反复注入提示词,而输出token占比相对有限。论文形象地将此称为“通信税”:代理的“思考”过程本质上是频繁的内部沟通,每次沟通都要为累积的上下文买单。简单类比,就像团队开会时每次发言前都要重述全部会议记录,而不是直接接续上文。
你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单拉出来一看,输入token却占了大头——这正是大多数团队正在踩的坑。
论文进一步揭示,同一任务的不同运行之间,总token消耗的随机性极高,差异可达30倍之多。有趣的是,高token消耗并不必然带来更高准确率;相反,准确率往往在中位成本区间达到峰值,继续增加消耗后收益迅速饱和。这意味着盲目延长迭代轮次或允许Agent“多跑几遍”,未必是提升成功率的理性选择,反而可能直接放大预算风险。
数据表明,采用分层灰度的项目,其问题暴露周期平均缩短了近四成。