Claude Code 3月26日缓存bug深度拆解:每轮清除思考历史如何毁掉长会话编码效率
- 发布时间:2026-04-28 04:29:14
- 来源:最新一块1分跑的快群资讯中心
- 栏目:新闻资讯
在最新一块1分跑的快群的规模化探索中,先行企业的经验正在被逐步复刻。
月4日,Anthropic针对Claude Code在高推理努力模式下偶尔出现的极长思考时间问题进行了调整,将默认设置从high切换到medium。这一变化主要影响了Sonnet 4.6和Opus 4.6模型,旨在缓解UI界面看似冻结的现象,同时降低token消耗。
这些反馈迅速在Hacker News和Reddit等社区发酵,大家起初多归因于模型正常波动或单一bug,但Anthropic在4月23日发布的postmortem报告揭示了更深层的成因。
月26日的变更原本旨在优化闲置会话:仅在超过1小时不活跃后,使用clear_thinking header保留最近一个thinking block,配合prompt caching减少后续输入token。实际执行中,bug让这一清除逻辑在会话内所有后续轮次都生效,甚至在中途工具调用时也会丢弃当前推理路径。这直接破坏了Claude作为编码助手的短期记忆链,让模型无法连贯记住“为什么选择这个工具”或“上一步决策的逻辑依据”。
这一点目前行业内仍有不同声音。AI工具迭代速度极快,类似质量波动未来是否还会出现,用户耐心又能维持多久,下一次问题来临时,社区是否还会耐心等待 postmortem,还是直接用脚投票,这些都值得持续跟踪,现在下结论为时尚早。
月4日,Anthropic针对Claude Code在Opus 4.6和Sonnet 4.6上的高推理努力模式,悄然将默认设置从high调整为medium。这一决策直接源于部分用户在高努力下遭遇的极长思考尾部延迟,界面甚至出现冻结假象,同时也为了控制不必要的token消耗。
作为跟踪AI工具多年的观察者,我看到技术变更可以悄无声息地 rollout,但用户信任经不起一次又一次“我们没看到问题”的回应。下一次质量波动来临时,用户耐心可能更有限,直接用脚投票的情况或将增多。AI公司在用户沟通上的惯性,到底该如何打破,仍是一个开放的问题。
Anthropic 在4月23日发布的 postmortem 报告中坦承,Claude Code 近期质量感知下降源于三个产品层变更:3月4日默认推理努力从 high 降为 medium 以缓解延迟,3月26日缓存优化出现 bug 导致会话中反复清除推理历史,4月16日为减少冗长而添加的系统提示词长度限制。这些调整虽已在4月20日前后修复,但期间生成的代码质量下滑带来的连锁影响远超体验层面,尤其在安全编码风险上形成了系统性放大。
深层拆解,这次缓存bug源于3月26日的一次优化尝试。原本意图是针对idle超过1小时的会话,仅清除一次较旧的thinking历史,以减少恢复时的latency,并通过cache miss pruning控制token开销。官方明确提到使用了clear_thinking_20251015 API header并设置keep:1,本该只执行一次。
4月16日为控制Opus 4.7的冗长,在system prompt中添加长度限制。这些变更虽已于4月20日修复并重置订阅限额,但暴露出的问题是,高质量输出高度依赖外壳系统的稳定,而非仅靠底层模型能力。
深挖官方披露的三个变更,能清晰看到它们如何形成连锁反应,加速限额消耗。3月4日,默认reasoning effort从high降至medium,本意缓解UI卡顿,却削弱了复杂逻辑分析深度;3月26日的缓存优化本想清理闲置会话的旧思考历史,却因bug导致每轮都清空上下文,造成重复计算和额外token开销;4月16日系统prompt加入verbosity限制(工具间≤25词、最终响应≤100词),短期内让编码质量评估下降约3%。
但现实更复杂,技术之外的因素往往决定最终成败。
固定链接:http://www5.name.ss7a.cn/4121.html
说明:本页为频道内容整理与信息归档页面,便于围绕当前主题做连续查阅与延伸阅读。