这个认知,正在被越来越多的案例所印证。
表面上看,Hacker News、GitHub issues和Reddit上充斥着开发者对长会话编码质量的吐槽:多文件重构进行到一半,Claude突然忘记已分析过的依赖关系,反复提出相同修改建议,token消耗也远超预期。主流解读多指向latency优化或整体智能下降,但这些观点忽略了上下文管理机制与缓存策略的深层交互。bug并非一次性事件,而是在多轮交互中逐步侵蚀会话状态,尤其在长idle后表现突出。
Anthropic 4月23日发布的postmortem为Claude Code近期质量下滑提供了清晰解释。报告指出,问题并非模型底层退化,而是三次产品层变更叠加所致,影响范围限于Claude Code、Agent SDK和Cowork,API未受波及。所有问题已在4月20日v2.1.116版本中完全修复,并伴随订阅用户用量限额重置。
短期内,Anthropic已完成全部修复,v2.1.116版本上线后Claude Code质量预计快速回升,他们还为订阅用户重置了使用限额,避免前期额外消耗的累积影响。长期来看,这件事对AI编码工具行业构成警醒:产品调优需更谨慎,消融测试和soak观察期应加强,用户则应关注官方透明度,同时学会主动调整prompt与设置。这一点目前行业内仍有不同声音,值得持续跟踪,现在下结论或许为时尚早。
对普通开发者而言,这次Claude Code事件提供了一个实用提醒:在评估AI编码工具时,除了基准分数和生成速度,更应留意公开changelog、内部dogfooding实践以及第三方eval报告。优先支持那些明确承诺透明度的产品,同时保持个人代码审查习惯仍是底线。Claude Code事件后,透明度与自适应能力将成为2026年AI编码工具质量保障的关键变量,但最终谁能真正落地,仍需观察后续厂商行动。
反之,若 Anthropic 落实新承诺,如创建 @ClaudeDevs 账号、加强 GitHub 更新和渐进 rollout,或许能成为正面标杆。
第二个变更是3月26日上线的缓存优化,本意针对闲置超过一小时的会话清除旧thinking内容,以降低恢复延迟和开销。技术实现中使用了clear_thinking机制,却因bug导致清除动作每轮对话都触发,先前累积的reasoning历史被逐步丢弃。结果是上下文连贯性受损,Claude在继续任务时容易重复思考、工具调用异常,甚至前后不一致。会话越长、涉及多工具链的场景,这个bug的影响就越显著。
这一点目前行业内仍有不同声音。数据支持重置能缓解短期摩擦,但样本量和长期观察仍有限。普通开发者不妨立刻检查账户限额状态,趁窗口期推进关键编码任务,同时养成备份重要提示、多模型切换的习惯。毕竟,AI 编码工具再强大,本质仍是工程产品,其稳定性和透明度,直接决定了我们在生产环境中的信心。
Anthropic的官方postmortem直指三大产品层变更叠加导致了Claude Code(含Agent SDK和Cowork,非API)在3-4月的质量下滑。3月4日默认推理努力从中到高下调,本意缓解UI卡顿,却让部分用户感知智能下降;3月26日的缓存优化引入bug,导致闲置会话每轮重复清理思考记录,制造“忘性大”和重复执行;4月16日的verbosity限制提示词进一步使编码质量评估中下降约3%。
对开发者而言,这次事件提供了一个清晰提醒:在自建 agent 或深度依赖 AI 编码工具时,不能仅把精力放在 prompt 调优上,必须将 harness 设计——工具约束、状态持久化、缓存策略——视为核心竞争力。模型是基础,但 harness 才是决定最终用户体验的关键。值得持续跟踪的是,未来类似事件是否会促使整个生态在透明度和工程实践上迈出更大一步,现在下结论或许为时尚早。
最近不少开发者在处理大型代码库的多文件重构时,突然发现Claude Code的表现大不如前。长会话中模型开始重复输出先前已分析过的依赖关系,忘记工具调用的逻辑链条,甚至在连续交互几轮后就显得“忘事”。Anthropic于4月23日发布的官方postmortem直指问题根源:3月至4月间三个改动叠加,其中缓存优化bug直接冲击了长上下文与多轮会话的稳定性。
数据支持这个方向,但长期验证仍需跟进。