这提醒从业者需要提升自身的行业洞察能力。
真实部署暴露了明显差距。Mercor的APEX-Agents基准测试让顶级模型处理银行分析师、咨询师和律师的480项日常任务,这些任务通常需从业者一两个小时完成。结果显示,即使最佳代理首次成功率也仅约24%,多次尝试后仍难达到可靠水平。AI在受控环境中看似强大,但在涉及模糊判断、跨系统上下文和战略决策的真实工作中,大多难以胜任。
数据基础设施的缺失,让许多AI项目看似热闹却难以盈利。这个判断有报告数据支撑,但行业演进速度快,样本仍在变化中。企业如果现在就停下来评估自身数据成熟度,从清理和结构化入手,或许能避开不少后续代价。
对企业和高管的真实冲击已在逐步显现。短期内,更多公司将在持续烧钱后感到失望,投资热情可能冷却,甚至引发项目下马或资源重新分配。长期而言,若不补上领导力这一环,AI难以真正成为驱动经济转型的技术,普通员工与中层将继续承受工具落地与旧流程的持续摩擦,整体效率提升有限。当然,这一点目前行业内仍有不同声音:如果高层敢于面对组织阻力、推动深度重构,那么少数5%的成功案例或许会逐步扩大,否则大部分企业将继续在表演式AI中徘徊,错失窗口期。
值得持续跟踪的是,目前真实世界评估方法仍显不足。许多“成功案例”局限于可控环境,难以大规模复制,样本量和场景多样性都有限。企业决策者若从现有流程审计入手,优先小范围真实测试而非全栈模型堆砌,或许能逐步缩小这一差距。但具体路径仍存在变数,下结论为时尚早。
MIT Technology Review最近的一篇文章借用了South Park“内裤精灵”的经典meme,来描绘当前AI行业的尴尬处境:第一步是打造出强大的“数字超级头脑”,也就是各种前沿大模型层出不穷;第三步则是厂商们反复承诺的经济转型和巨额利润;但中间的第二步——如何让这些技术在真实企业环境中真正产生可衡量的回报——却始终是个巨大的问号。
短期内,这种阵痛或将延续。更多试点项目面临预算浪费和信心下滑,部分直接下马,hype带来的高预期与现实落差可能放大泡沫风险。长期来看,行业将加速分化:那些愿意重构流程、建立真实世界评估机制并加强协作的企业,有望补齐缺失的一步,实现从采用到盈利的闭环。而多数企业仍可能在反复尝试中徘徊。这一点目前行业内仍有不同声音,值得持续跟踪,现在下结论为时尚早。
深层问题在于云迁移的执行方式。不少企业仍采用简单的“lift-and-shift”策略,将遗留系统原封不动搬到云端,却未进行架构重构和优化。这种做法在短期内看似降低迁移门槛,但无法承载AI大规模推理、实时数据流动以及agentic工作流所需的弹性算力和低延迟访问。AI就绪基础设施需要云原生能力、打通的数据管道和可扩展环境,这些都不是传统“只搬不改”能提供的。
常见缺失的执行环节反复出现。首先是流程再造的缺失,许多公司简单叠加AI工具,却不愿或无力调整原有跨部门协作机制。其次是真实世界评估不足,实验室任务可控,而现实中充满上下文依赖和例外情况,当前模型的战略判断能力仍显薄弱。再次是ROI量化的困难,集成开销和数据清洗成本往往远超预期,却缺乏清晰的baseline指标来追踪长期价值。这些坑点共同指向一个判断:技术门槛已降低,但组织执行的鸿沟让盈利成了问号。
表面上看,主流舆论倾向于将AI落地难题归结为技术泡沫。MIT的调研数据显示,约95%的企业生成式AI试点项目未能带来可衡量的业务回报,只有极少数实现了快速营收增长。大部分项目停留在实验阶段,对利润表的影响微乎其微。部分公司投入大量资源后发现,模型在演示环境中表现亮眼,一旦进入真实业务场景就频频卡壳,投入与产出的剪刀差日益明显。这让不少观察者开始质疑整个行业的可持续性。
企业AI从技术演示到实际盈利的路径上,始终存在一个被低估的执行缺口。MIT Technology Review近期报道指出,许多公司已完成模型构建和变革宣传,却在落地环节普遍卡壳。数据显示,95%的生成式AI试点项目未能产生可衡量的P&L影响,仅有少数实现了快速营收加速。这一现象与几年前企业上云的早期阶段颇为相似,但AI的时间窗口可能更短,容错空间也更有限。
这个方向成立,但具体路径需要根据自身情况灵活调整。