“正规1元1分跑的快群”_正规1元1分跑的快群新乡论坛

内容提要

围绕正规1元1分跑的快群、看透本质相关线索，这对正规1元1分跑的快群的技术实现路径产生直接影响。

这对正规1元1分跑的快群的技术实现路径产生直接影响。

论文的核心发现直指这一盲区。同一任务不同运行轨迹的token消耗可相差高达30倍，输入token而非输出token才是成本主导因素。准确率往往在中等token区间达到峰值，继续增加消耗反而出现饱和甚至无明显提升。模型间差距同样惊人，Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多耗超过150万token。

输入token主导的特性，让AI Coding Agent的成本结构与传统聊天工具形成鲜明对比。研究发现，代码审查和迭代验证阶段通常占总消耗的50%以上，而初始代码生成反而相对廉价。这提醒我们，agent并非一次性工具，而是持续对话系统，其隐藏成本藏在每次工具调用和历史累积里。数据支持这个观察，但具体到不同框架如OpenHands时的表现，仍需更多跨模型验证。

论文进一步揭示了agentic任务的独特高耗特征。相比单次推理，Agent需要反复读取上下文、调用工具并迭代修正，由此产生的“通信税”推动输入token占比显著升高。高耗并不必然对应高准确率，研究显示准确率常在中间成本区间达到峰值，继续追加token投入后反而出现饱和。这意味着盲目延长运行时间未必能换来更好回报。

你部署AI Agent时，是不是总盯着输出token定价，以为控制生成长度就能省钱？结果账单爆炸，却发现输入token占了大头——这正是大多数团队正在踩的坑。

arXiv最新论文《How Do AI Agents Spend Your Money?》的轨迹分析显示，这种现象在agentic coding任务中极为普遍，输入token的累积是主因。

短期内，继续依赖人类感知复杂度做agent deployment预算，容易导致ROI下滑，尤其在大规模生产环境中，随机波动会让固定成本控制变得棘手。长期来看，这一gap或推动行业开发更精准的token预测工具、优化模型效率，或设计内置预算感知的Agent架构。但前沿模型当前自我预测token消耗的相关性最高仅0.39，且存在系统性低估，值得持续跟踪。现在下结论为时尚早，样本和任务类型仍有局限。

GPT-5在相同任务下的token效率表现出色。论文数据显示，它平均比Kimi K2和Claude Sonnet 4.5少消耗150万以上的token。这一差距并非源于任务难度本身，即使在所有模型都能成功解决的子集上，效率差异依然稳定存在。GPT-5的上下文管理和迭代策略似乎更优化，避免了不必要的冗长循环。对于预算敏感或需要大规模部署Agent的团队来说，这种高效性直接转化为长期成本优势。

模型间的token效率差异同样不容忽视。在相同SWE-bench任务上，Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗150万以上token。这种差距即使在所有模型都能成功解决的简单子集上依然存在，说明它更多源于模型行为而非任务难度本身。人类专家对任务难度的主观判断与实际token成本仅呈弱相关，这意味着凭经验估算开支很容易出错。

此外，前沿模型预测自身token消耗的能力相当有限。论文指出，预测与实际消耗的相关性最高仅0.39，且存在系统性低估。这让开发者在启动任务前难以准确预判开销，预算控制变得充满不确定性。短期内，这会让不少中小团队对大规模部署Agentic Coding保持谨慎；长期来看，它或将推动行业向token-efficient的代理架构演进，包括更优的上下文管理和成本预测工具。但如果缓存与压缩技术未能突破，使用门槛可能显著抬高中小玩家的参与度。

当然，优化不是一劳永逸。Agent架构仍在快速迭代，未来上下文压缩技术和原生长上下文支持可能进一步改变成本结构。但在当前阶段，把注意力从“输出溢价”转向“输入主导”，已是大多数团队能立刻调整预算逻辑、避免项目超支的务实一步。值得持续跟踪的是，随着Agent规模化部署，这一输入主导的经济学规律会如何影响整个LLM生态的定价模型。

回顾“正规1元1分跑的快群”_正规1元1分跑的快群新乡论坛中的核心论点，可以发现数据支持的方向与现实执行之间，仍存在不小的落差。这个落差，正是未来竞争的焦点所在。

继续查看

围绕当前主题，除本页正文外，还可继续进入新闻资讯、 AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？、设置域名转移锁正确姿势：避免GoDaddy陌生人事件重演查看同类整理内容。

频道标签

固定信息

固定链接：http://www5.name.ss7a.cn/images/6121.html

作者简介：站内内容组主要处理公开资料整合与页面摘要整理，侧重把分散素材整理成清晰内容，常见于站内内容更新流程，让文章页在移动端和 PC 端都保持清晰可读，并根据当期话题做差异化补充。

互动量：评论 1 / 点赞 2702

同栏阅读：不打疫苗靠自然免疫行吗？孩子健康风险分析 / 尊界S800上市10个月交付1.6万台，200万级新车如何延续百万豪车销量神话 / 澳门居民偷运51公斤内地盒饭被罚：检疫规定执行力度分析

本文标题：AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？
固定链接：http://www5.name.ss7a.cn/images/6121.html
说明：本页内容以主题整理、信息补充和相关阅读为主，适合按频道结构做连续查看。

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘：钱到底花哪了？

频道标签

固定信息

相关内容

Agentic Coding 任务比普通代码聊天贵1000倍？论文拆解AI代理真实成本

哪款大模型在 Agentic Coding 中最省 token？8 大前沿模型对比

AI Agent 高 token 消耗时代，固定订阅模式还能撑多久？深度经济挑战分析

AI编码Agent迭代循环如何导致token爆炸式增长？风险防控

开发者必读：AI Coding Agent 的隐藏成本与避坑指南

代码审查阶段为什么吃掉 AI Agent 近 60% token？开发流程 tokenomics 拆解