过去一年,最新一元一分跑的快群从实验室走向业务一线的步伐明显加快。
第四,人类专家评定的任务难度与代理实际token成本仅呈弱相关。这暴露了人机认知的根本脱节:我们认为棘手的问题,代理有时能以较低开销快速解决;而看似常规的修复,却可能让代理陷入长循环,消耗大量资源。计算努力与感知复杂度的错位,成为代理规模化的一大障碍。但现实更复杂。
GPT-5在相同任务下的token效率表现出色。论文数据显示,它平均比Kimi K2和Claude Sonnet 4.5少消耗150万以上的token。这一差距并非源于任务难度本身,即使在所有模型都能成功解决的子集上,效率差异依然稳定存在。GPT-5的上下文管理和迭代策略似乎更优化,避免了不必要的冗长循环。对于预算敏感或需要大规模部署Agent的团队来说,这种高效性直接转化为长期成本优势。
AI Coding Agent 在 SWE-bench Verified 数据集上的 token 消耗轨迹显示,复杂编码任务的费用远超普通代码推理或聊天场景。arXiv 最新论文通过 OpenHands 框架对八大前沿 LLM 进行系统分析,发现 Agent 任务的总 token 消耗往往比后者高出 1000 倍以上,而主导成本的并非模型输出的新代码或推理步骤,而是反复注入的输入上下文。
很多开发者在使用OpenHands或Claude Code这类AI Coding Agent修复一个看似简单的bug时,任务跑完后账单却突然暴增,一次普通兼容性调整就能轻松消耗数万甚至上百万token。arXiv近期论文《How Do AI Agents Spend Your Money?
模型间效率差异同样惊人。在相同任务上,Kimi-K2 和 Claude-Sonnet-4.5 平均比 GPT-5 多消耗 150 万以上 token,即使在所有模型都能解决的简单子集上这一差距依然存在。人类专家对任务难度的主观判断与实际 token 成本仅呈弱相关,这意味着凭经验预估开支很容易失准。大多数开发者以为更强的模型天然更省钱,但现实恰恰相反,聪明模型在 agentic 流程中往往制造更多无效迭代和上下文膨胀。
Kimi K2和Claude Sonnet 4.5则处于较高消耗区间。同一任务下,它们平均多出150万+ token,原因可能在于上下文处理方式、迭代循环长度或在复杂代码库中更容易陷入反复调试状态。论文没有给出精确机制,但数据清晰揭示了模型间行为差异。有意思的是,这些模型在准确率峰值场景下可能仍有优势,尤其当任务需要极致深度推理时。适合对性能有高要求的实验性项目,但对于常规开发而言,额外消耗未必换来成比例的产出提升。
除了模型间效率差异,研究还发现人为评定的任务难度与实际token消耗仅呈弱相关。这说明人类直觉判断的“复杂Bug”,在Agent执行时所消耗的计算努力可能完全不同。有些看似简单的修复,却会意外烧掉巨量token,而一些被认为棘手的任务反而消耗相对可控。这种认知鸿沟,进一步放大了Agentic Coding在成本控制上的不确定性。
上下文压缩则是治本之策。用小型模型提前对工具输出或文档做预压缩,只保留核心事实;设置硬性token上限,要求输出简洁指令;把任务拆成子代理,每个只看到必要上下文。结合LangChain压缩模块,单个任务token用量能从百万级降到十分之一,同时注意力更集中,准确率基本持平甚至略有提升。
论文重点考察了需要多步工具调用和上下文累积的agentic tasks。在SWE-bench这类真实软件工程场景中,Agent不断阅读代码、调用工具、生成补丁、验证测试,导致输入token快速膨胀。即使启用缓存,上下文累积效应仍主导整体开销。输出token虽重要,但远不是成本大头。这种输入驱动的特性,让传统“控制生成长度就能省钱”的思路显得不够充分。
Reflexion loop和self-correction cycles这类机制,本意是提升准确性,却让上下文像滚雪球般累积,每一轮都在为历史买单。
最新一元一分跑的快群的趋势值得关注,但执行难度不低。