记牌技巧的搜索生态,正在朝着更智能、更个性化、也更注重质量的方向持续演进。
把两者并列观察,token成本、隐私安全和适用场景的剪刀差已经足够清晰。论文还发现,人为评定的任务难度与实际token消耗仅呈弱相关,这提醒我们对Agent真实开销的直觉有时并不准确。开发者与企业最终的选型,或许取决于项目对数据主权的敏感度和使用频率的长期预期——这一点目前行业内仍有不同声音,值得持续跟踪,现在下结论为时尚早。
模型间token效率也拉开显著差距。在相同任务集上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。这一数字在批量部署或生产环境中会被迅速放大。GPT-5展现出更好的token经济性,而另一些模型虽在特定能力上占优,“油耗”却更高。选择Agent底层模型时,单纯看基准准确率已不够,必须将token效率纳入决策框架,否则隐形成本会持续侵蚀ROI。
模型间token效率差异同样显著。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。即使框架一致,底层模型选择也会让预算压力天差地别。人类专家评定的任务难度与实际token成本仅微弱相关,说明我们对复杂度的直觉和Agent真实计算努力存在明显差距。模型自身预测token使用量的相关性最高也仅0.39,且系统性低估真实成本。
arXiv 最新论文《How Do AI Agents Spend Your Money?》对 agentic coding 任务的 token 消耗进行了系统剖析,基于八个前沿模型在 SWE-bench Verified 上的真实轨迹数据。研究发现,AI Agent 在复杂编码场景下的 token 用量远超普通代码推理或聊天任务,高出约 1000 倍,且输入 token 而非输出 token 主导整体成本。
大多数开发者目前聚焦于代理在SWE-bench等基准上的亮眼表现。顶级系统已能在软件工程任务中展现较强自主性,主流观点认为引入Agentic Coding就能减少人力投入,让AI像资深工程师一样处理真实项目。这一点确实有数据支撑——代理通过多轮工具调用和上下文迭代,超越了一次性问答的局限。然而,很少有人注意到伴随而来的token开销激增,以及这种开销的极高随机性。
论文数据显示,agent任务的token消耗比常规代码聊天高出1000倍以上,而主导开销的并非模型生成的新代码或推理步骤,而是反复塞入历史上下文的输入token。随着交互轮次增加,OpenHands这类框架默认会将累积的代码库片段、失败尝试和工具输出全部回喂模型,上下文像滚雪球般膨胀。同一任务下,不同运行的总token差异可达30倍,凸显出执行路径的强随机性。
除了模型间差异,论文还指出,人为评定的任务难度与实际token消耗仅呈弱相关。人类直觉认为的“复杂Bug”,Agent执行时消耗的计算努力可能完全不同。这解释了为什么一些看似简单的修复任务会突然烧掉巨量token。类似地,前沿模型普遍无法准确预测自身token使用,预测相关性最高仅0.39,且系统性低估真实成本。这意味着预算规划往往不靠谱,值得持续跟踪,现在下结论为时尚早。
最近,一篇arXiv论文系统剖析了八个前沿大模型在SWE-bench Verified上的agentic coding轨迹,结果显示人类专家评定的任务难度与实际token消耗之间仅呈弱相关(Kendall τ约0.32)。许多被标记为“简单”的任务却消耗了远超预期的token,而部分公认“困难”的任务在某些模型上反而运行得相对高效。这个发现暴露了人类认知与AI代理实际计算努力之间的显著gap。
Reflexion loop和self-correction cycles这类机制,本意是提升准确性,却让上下文像滚雪球般累积,每一轮都在为历史买单。
Kimi K2和Claude Sonnet 4.5则处于较高消耗区间,在相同任务下平均多出150万+ token。可能的原因包括更长的迭代循环、不同的上下文管理方式,以及在复杂代码库中更容易陷入反复调试的状态。不过,论文也诚实地指出,这些模型在某些准确率峰值场景下可能仍有优势,尤其当任务需要极致深度推理时。适合对性能有极致追求、预算相对宽松的场景,但多花的token并不总能线性换来更好结果。
但这个逻辑成立,关键在于是否愿意为长期收益付出短期成本。