快评栏目
新闻观察员 2026-04-28 05:12:05 阅读 835

AI编码Agent的“通信税”:输入token如何主导你的账单

围绕手机一元一分红中麻将群、必要性分析相关线索,在优化全新攻略手机一元一分红中麻将群_奢侈品论坛时,结合站点整体定位和品牌调性,比单纯追求点击率更可持续。
AI编码Agent的“通信税”:输入token如何主导你的账单

在优化全新攻略手机一元一分红中麻将群_奢侈品论坛时,结合站点整体定位和品牌调性,比单纯追求点击率更可持续。

深层拆解显示,软件开发生命周期中各阶段token分布极不均衡。代码审查不仅是token消耗主力,还呈现出输入主导特征(输入51.4%,输出24.7%),因为Agent需要反复将已有代码库、历史修改和测试结果塞入提示中进行分析反馈。相比之下,编码阶段输出占比更高(58%),更接近传统生成任务。不同模型间效率差异同样显著,Kimi-K2和Claude-Sonnet-4.5在相同任务上平均比GPT-5多消耗超过150万token。

这远超初始设计(2.4%)和编码(8.6%)等前期阶段,输入token整体占比达53.9%,远高于输出token。表面上AI Agent能自主完成SWE-bench任务显得高效,但实际成本结构比想象中复杂得多。

最近,一篇arXiv论文系统追踪了八个前沿大模型在SWE-bench Verified上的agentic coding轨迹,结果显示人类专家评定的任务难度与实际token消耗之间仅呈弱相关,Kendall τ系数约为0.32。许多被标记为“15分钟级简单任务”的案例,却消耗了超过平均“1小时级任务”的token,而部分公认困难的问题在某些模型上反而高效收尾。

第二,同一任务的不同运行间token用量波动可达30倍。更关键的是,高消耗并不必然带来高准确率,准确率往往在中段成本就已见顶,继续追加token的边际收益迅速递减。70%和7%这样的剪刀差在过去云迁移早期也曾出现,这次的时间窗口却可能短得多。token用得越多不代表做得越好,这才是代理经济最扎心的真相。

模型之间的效率差异也非常显著。在相同任务上,Kimi-K2和Claude-Sonnet-4.5平均比GPT-5多消耗超过150万token。人类专家对任务难度的主观判断,与实际token成本只有弱相关。这说明我们凭经验预估Agent会花多少钱,常常偏差很大。

代码审查阶段吃掉近 60% token 的现象,本质源于其高度依赖上下文的对话特性。Agent 必须不断回顾整个代码变更历史和测试结果,每次交互都将大量已有信息重新作为输入,形成典型的“通信税”。这一点目前行业内仍有不同声音,但数据支持的趋势已相当清晰:迭代验证而非初始生成,才是当前多代理编码系统的主要成本点,值得开发者持续跟踪优化路径。

深层数据显示,代理任务的高成本源于其迭代循环机制。不同于一次性代码聊天,agentic coding需要AI反复读取累积的上下文、调用工具、观察执行结果并重新规划,这导致每次循环都将大量历史对话、代码片段和日志重新注入提示词中。论文将此描述为“通信税”——代理的“思考”本质上是频繁的内部沟通,而每次沟通都要为不断膨胀的上下文买单。简单类比,就像会议中每次发言前都要重述全部记录,而非直接延续话题。

从部署角度看,这一弱相关性对agent deployment的成本控制提出了现实挑战。短期内,若团队仍依赖人类专家难度标签做预算,容易出现严重超支或资源低估,直接拖累项目ROI。长期而言,它会推动行业开发更精准的token预测工具、优化模型效率,或设计内置预算感知的Agent架构。目前前沿模型自我预测token消耗的相关性最高仅0.39,且系统性低估真实开销。

arXiv上最新论文《How Do AI Agents Spend Your Money?》针对agentic coding任务进行了系统分析,考察了八个前沿LLM在SWE-bench Verified上的token消耗轨迹。研究发现,agentic任务消耗token比普通代码推理或聊天多出约1000倍,且主要是输入token主导成本,而非输出。

另一个反直觉点是,人类专家评定的任务难度与实际 token 消耗仅呈弱相关。某些在人类看来棘手的 GitHub issue,Agent 可能迅速找到高效路径;反之,一些看似简单的修复却让 Agent 陷入反复试错循环,token 开销远超预期。这反映出当前 Agent 的“思考路径”与人类认知之间仍存在明显鸿沟,也提醒我们不能简单用人工判断来预估部署成本。

全新攻略手机一元一分红中麻将群_奢侈品论坛的优化,关键在于持续缩小认知与行动之间的差距。

继续查看
对当前主题与 必要性分析 相关内容还可继续查看 新闻资讯频道AI编码Agent的“通信税”:输入token如何主导你的账单AI如何判断视频被加速还是减速?Seeing Fast and Slow论文解读 以及下方相关文章列表。

作者简介

热点整理编辑专注于围绕专题信息补充进行内容整理,同时兼顾延伸阅读整理,重视页面首屏信息与正文承接,让热点正文、灰词导读和相关推荐保持基本协调,并根据当期话题做差异化补充。

互动数据

点赞 4038 · 评论 1

固定链接:http://www5.name.ss7a.cn/images/6031.html

本文标题:AI编码Agent的“通信税”:输入token如何主导你的账单
固定链接:http://www5.name.ss7a.cn/images/6031.html
说明:本页以频道方式对当前主题进行整理,并结合正文与相关文章提供连续阅读入口。

相关文章

查看更多

输出 token 溢价 vs 输入主导:AI Agent 定价模型的误区

你部署AI Agent时,是不是总盯着输出token定价,以为控制生成长度就能省钱?结果账单爆炸,却发现输入token占了大头——这正是大多数团队正在踩的坑。 不少开发者习惯按传统聊天模型的思维来算账。输出token单价通常比输入高,所以大家自然把注意力放在缩短回复上,精炼最终答案,限制思考步骤。以为这样就能把成本压下来。实际情况却往往相反。尤其是当Agent进入多轮迭代、工具调用、上下文累积的...

发布时间:2026-06-25

多代理协作中的Token浪费:从通信开销到优化路径

最近arXiv上的一篇论文把多代理协作的隐形成本摆到了台面上。AI代理在复杂的人类工作流中越来越普及,尤其是在编码任务里,Token消耗正快速增长。这篇研究系统分析了SWE-bench Verified上的代理轨迹,涉及八个前沿LLM模型,结果显示agentic任务的Token消耗是普通代码推理或代码聊天的1000倍左右。更关键的是,输入Token而非输出Token才是成本大头,多代理协作中上下文...

发布时间:2026-06-25

2026 年 AI Agent 成本预测:从单任务到企业级规模化

最近 arXiv 上的一篇论文《How Do AI Agents Spend Your Money?》引起了不少关注。这篇研究系统分析了 AI Agent 在 agentic coding 任务中的 token 消耗模式,基于八个前沿大模型在 SWE-bench Verified 基准上的轨迹数据,给出了较为清晰的画像。核心结论之一是,AI Agent 执行复杂任务时 token 用量远高于预期,...

发布时间:2026-06-25

AI编码Agent同一任务token消耗为何波动高达30倍?论文实证揭秘

最近,一篇来自arXiv的论文把AI Agent的“花钱”习惯摆上了台面。研究团队分析了八个前沿大模型在SWE-bench Verified基准上的运行轨迹,结果显示AI编码Agent在复杂编码任务中token消耗远超普通聊天或代码推理任务,高达1000倍。更让人意外的是,同一个任务多次运行,总token用量差异能达到30倍,输入token成了成本大头。这件事比表面看起来复杂得多,随机性才是背后最...

发布时间:2026-06-25

如何优化 AI Coding Agent 的 token 消耗?实用成本控制策略

你是不是也遇到过这样的情况:用 AI Coding Agent 跑一个 SWE-bench 任务,本以为几块钱就能搞定,结果账单跳出来,上百万 token 消耗,成本轻松破百元。任务越复杂,token 用量就越不可控,跑几次下来,小团队的预算直接心疼。 很多开发者一开始对 AI Agent 抱有期待,觉得它能自动规划、执行、修复代码,效率翻倍。可现实是,agentic workflow 一旦跑起...

发布时间:2026-06-25

AI编码Agent迭代循环如何导致token爆炸式增长?风险防控

你是不是也遇到过这样的情况?部署了一个基于OpenHands的AI编码Agent,本来想让它在SWE-bench任务上修复一个GitHub issue里的bug,结果跑着跑着就停不下来了。自纠正机制不断反思历史轨迹,每一轮都把之前的上下文和工具输出重新塞进提示里,token消耗从最初的几千直接飙升到几十万甚至上百万。等账单出来时,才发现一次任务就把预算烧掉一大半,不少团队不得不紧急下线Agent或...

发布时间:2026-06-25