谁有一元一分红中麻将群
频道专题页 / 重点报道 / 热点拆解
专题观察 实用指南 核心信号 · 重点摘要
深度专题

AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析

围绕谁有一元一分红中麻将群、演变过程相关线索,反应迟钝的站点,则可能面临流量的缓慢但难以逆转的流失。
AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析

反应迟钝的站点,则可能面临流量的缓慢但难以逆转的流失。

上下文压缩与流程优化进一步收紧了膨胀空间。通过廉价模型预先过滤无关文档或工具输出、设置硬性 token 上限,以及将任务拆解为子代理(每个仅持有必要上下文),输入主导的成本结构得到显著改善。行业实操案例显示,组合使用这些方法后,单个复杂 coding 任务的 token 总量可从百万级降至十分之一左右,输入输出比例更趋均衡,而准确率并未明显下滑。

许多开发者在实际部署AI编码Agent时,都会遇到一个隐形陷阱:原本以为一次简单的bug修复任务,几千token就能搞定,结果因为自纠正和反思循环反复迭代,token消耗迅速失控,从初始几千直接攀升到数十万甚至百万级别。arXiv最新论文《How Do AI Agents Spend Your Money?

除了模型间差异,论文还指出,人为评定的任务难度与实际token消耗仅呈弱相关。人类直觉认为的“复杂Bug”,Agent执行时消耗的计算努力可能完全不同。这解释了为什么一些看似简单的修复任务会突然烧掉巨量token。类似地,前沿模型普遍无法准确预测自身token使用,预测相关性最高仅0.39,且系统性低估真实成本。这意味着预算规划往往不靠谱,值得持续跟踪,现在下结论为时尚早。

行业趋势显示,2026-2028 年整体 token 使用量预计呈现指数级增长,若优化滞后,“token 危机”或将制约部署节奏。

模型间效率差异也值得关注。在相同任务下,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观评估,与实际token成本仅呈弱相关:开发者眼中复杂的bug,在Agent执行时可能消耗较少资源,反之一些看似简单的修复却引发反复审查,形成token黑洞。这种感知与现实的脱节,进一步放大了tokenomics管理的复杂性。

人类专家对任务难度的主观评估,与Agent实际token成本仅呈现弱相关。这一点目前行业内仍有不同声音。一些看似棘手的bug,Agent可能快速处理;而简单修复却因上下文维护反复触发审查,烧掉大量资源。这种感知脱节,进一步放大了tokenomics管理的复杂性。

前沿模型普遍无法准确预测自身token使用,预测相关性最高仅0.39,且系统性低估真实成本。这让预算规划变得困难,开发者在启动Agent前很难获得可靠的成本预期。结合输入token主导的特性,如何在模型选择和提示工程上进一步优化Agent轨迹,目前行业内仍有不同声音,值得开发者在实际项目中持续跟踪验证。

arXiv论文《How Do AI Agents Spend Your Money?》对8个前沿LLM的Agent轨迹进行了系统跟踪,发现输入token而非输出token主导了整体成本。在Agent反复读取上下文、调用工具和迭代调试的过程中,输入消耗往往占到70%以上。这一点与传统单次推理任务形成鲜明对比,也解释了为什么许多开发者在运行复杂代码库修复时,会突然看到账单成倍增长。

除了模型间效率差异,研究还发现人为评定的任务难度与实际token消耗仅呈弱相关。这说明人类直觉判断的“复杂Bug”,在Agent执行时所消耗的计算努力可能完全不同。有些看似简单的修复,却会意外烧掉巨量token,而一些被认为棘手的任务反而消耗相对可控。这种认知鸿沟,进一步放大了Agentic Coding在成本控制上的不确定性。

这种迭代循环带来的token爆炸,如今在开发者社区已成常见痛点。arXiv最新论文《How Do AI Agents Spend Your Money?》对八个前沿LLM在SWE-bench Verified上的轨迹分析显示,agentic coding任务的token消耗远超普通代码聊天或推理,高达1000倍左右,且主要由输入token驱动。

把演变过程当作一个长期能力建设的课题。

本文导航
若继续关注 谁有一元一分红中麻将群 与 演变过程 相关内容,可查看 新闻资讯频道, 或直接阅读 AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析Grab低价策略如何驱动2026用户基数扩张与On-Demand GMV持续增长 这些同主题页面。
本文标题:AI Agent 编码任务为何疯狂烧钱?输入 Token 主导成本的 arXiv 论文解析
固定链接:http://www5.name.ss7a.cn/images/6101.html
说明:本文按当前主题进行整理与归档,便于从摘要、正文和相关内容几个层面做连续查看。

延伸阅读

更多

开发者必读:AI Coding Agent 的隐藏成本与避坑指南

你是不是也遇到过这种情况?周末加班用AI Coding Agent帮项目修一个看起来不复杂的bug,兴冲冲跑完任务后打开账单,结果token消耗直接破万,预算一下子就紧张起来。明明是日常开发工作,怎么AI工具反而成了“烧钱机器”?不少开发者反馈,用OpenHands或Claude Code处理代码任务时,成本失控的情况越来越常见。如果不提前控制,项目开支很容易超出预期。 最近arXiv上的一篇论...

发布时间:2026-06-25

AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘

最近,一篇来自arXiv的论文把AI Agent的“花钱”习惯摆上了台面。研究团队分析了八个前沿大模型在SWE-bench Verified基准上的运行轨迹,结果显示AI编码Agent在复杂编码任务中token消耗远超普通聊天或代码推理任务,高达1000倍。更让人意外的是,同一个任务多次运行,总token用量差异能达到30倍,输入token成了成本大头。这件事比表面看起来复杂得多,随机性才是背后最...

发布时间:2026-06-25

2026 年 AI Agent 成本预测:从单任务到企业级规模化

最近 arXiv 上的一篇论文《How Do AI Agents Spend Your Money?》引起了不少关注。这篇研究系统分析了 AI Agent 在 agentic coding 任务中的 token 消耗模式,基于八个前沿大模型在 SWE-bench Verified 基准上的轨迹数据,给出了较为清晰的画像。核心结论之一是,AI Agent 执行复杂任务时 token 用量远高于预期,...

发布时间:2026-06-25

AI Coding Agent 在 SWE-bench 上真实 Token 轨迹揭秘:钱到底花哪了?

最近,一篇来自 arXiv 的论文把 AI Coding Agent 的“烧钱”问题摆到了台面上。论文标题直白——《How Do AI Agents Spend Your Money?》,核心是分析 Agent 在真实软件工程任务中的 token 消耗轨迹。研究团队使用 OpenHands 框架,在 SWE-bench Verified 数据集上跑了八大前沿大模型的轨迹,首次系统回答了三个问题:钱...

发布时间:2026-06-25

AI编码Agent的“通信税”:输入token如何主导你的账单

最近一篇arXiv论文把AI编码Agent的真实成本摆到了台面上。研究团队分析了八个前沿大模型在SWE-bench Verified任务上的运行轨迹,结果显示,Agentic任务的token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,主导账单的不是模型输出的新代码,而是不断累积的输入token。 这件事比表面“AI帮你写代码省钱”复杂得多,账单背后的隐形成本正悄然吞噬预算。 很多...

发布时间:2026-06-25

输出 token 溢价 vs 输入主导:AI Agent 定价模型的误区

你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单爆炸,却发现输入token占了大头——这正是大多数团队正在踩的坑。 不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的...

发布时间:2026-06-25