这一点目前行业内仍有不同声音,但数据支持的方向越来越清晰。
当然,转向并非没有阻力。计算资源若无法匹配经验生成的规模,对齐问题若迟迟无解,进程便可能放缓。但数据支持的方向清晰:人类数据时代已显疲态,而经验时代的时间窗口,或许比想象中更短。值得持续跟踪的是,这一范式切换能否真正重塑AI轨迹。
长期来看,如果计算资源跟得上且对齐问题逐步解决,超级智能或许并非来自越堆越大的语言模型,而是源于这些“自学成才”的superlearner,它们能从开放环境中自主探索未知。这一范式转变对从业者意味着,RL技能和Agent交互设计将越来越关键。值得持续跟踪的是,经验时代能否真正主导AI轨迹,现在下结论仍为时尚早,但Silver已用声誉和巨额融资投下了明确一票。
短期来看,这轮融资将加速RL与世界模型的融合研究,可能催生更多“经验优先”的AI初创,伦敦生态或将受益。长期而言,若成功,AI范式或从“数据饥渴”转向“经验自给”,重塑行业资源分配。但不确定性依然突出:奖励塑造失败或探索效率瓶颈持续,都可能让项目回归RL+LLM的混合路线。值得持续跟踪,现在下结论为时尚早。
行业观察多年,我个人更倾向于认为强化学习将成为AI长期范式的关键补充,甚至潜在替代。人类数据时代已接近尾声,再怎么合成或精炼,也绕不开内在局限。只有让AI通过自我试错生成可持续经验,才可能实现质的智能跃迁。这个方向是对的,但执行难度远高于表面。AI下一站究竟会如何演进,仍需观察Ineffable Intelligence后续的技术落地。
Ineffable Intelligence的团队组建动态,为观察AI人才从实验室向创业公司加速流动提供了重要窗口。它不仅关乎一家公司的野心,更折射出行业在技术路线与人才配置上的深层博弈。这一趋势将如何重塑竞争格局,仍需后续团队公告与技术进展来验证。
然而,主流讨论往往停留在成功案例的光环上,忽略了从规则明确的游戏环境到现实世界的巨大差异。AlphaZero的奖励信号清晰、探索空间有限,而开放世界中“什么算好一步”的定义远非简单,这一点目前行业内仍有不同声音。
人类数据看似丰富,实则静态、有限且携带偏见。互联网文本和代码不过是已有知识的快照,在数学等前沿领域已显露上限,而AlphaProof通过强化学习从少量人类证明起步,后续自主生成上亿条经验,便超越了纯人类中心方法。相比之下,经验数据由Agent在交互与试错中无限产生,质量更贴近任务本质,能真正突破人类知识边界。这个剪刀差,说明数据驱动路径的边际收益正在快速递减。
Ineffable的superlearner战略,正是把这一理论落地。它要构建的系统像生物一样,在数字环境中通过持续trial and error积累经验,目标是让AI成为真正的自学者,而非数据消费者。Silver视此为一生工作,融资后将加速RL在游戏、数学、科学模拟等规则清晰场景的突破。短期内,这可能带动资本从LLM集中转向经验驱动项目,资源分配出现微妙调整。
Silver本人的AlphaZero提供最直观的类比。它从零开始,只知规则,不碰任何人类棋谱,通过自我对弈和强化学习,几天内便达到超人类水平,发明了人类棋手未曾想到的策略。这一过程证明,纯经验驱动结合大规模计算,能让系统发现第一性知识,而非仅仅模仿二手数据。Sutton的经典《The Bitter Lesson》早已预言,长期胜出的总是那些充分利用计算的通用方法,而非依赖人类知识注入的短期捷径。
主流媒体报道多聚焦融资体量与Silver的过往成就。TechCrunch等平台强调他主导的AlphaGo、AlphaZero等系统如何通过纯经验学习超越人类顶尖水平,这些工作不依赖人类棋谱或策略记录,而是让AI在反复试错中进化。Silver本人将Ineffable Intelligence称为“一生事业”,并表示公司未来收益将捐赠用于高影响力慈善。
“哪里有红中麻将一元群”_哪里有红中麻将一元群中国网论坛的热潮退去后,留下的才是真正决定格局的因素。