共计 1736 个字符,预计需要花费 5 分钟才能阅读完成。
11 亿美元做 ” 不需要人类的 AI”,DeepMind 前核心重出江湖
DeepMind 前核心科学家下场创业,估值 51 亿美元,Sequoia 和 Nvidia 抢着投钱——这消息在国内 AI 圈炸开了。
David Silver,这个人不陌生。他当年在 DeepMind 带着团队搞出 AlphaZero,一个完全不需要人类棋谱、靠自己下棋练出来的怪物,直接把世界最强的 Chess 引擎掀翻在地。那时候我就觉得这人有点东西。他不是那种跟着 OpenAI 卷 Scaling 的路线走,而是死磕强化学习本身。
现在他创立的公司叫 Ineffable Intelligence,融了 11 亿美元,估值 51 亿美元。这是什么概念?种子轮直接干到独角兽。投资方里 Sequoia、Nvidia、Google 都在。这不是资本在撒钱,这是在押注一个方向——不需要人类数据的超级学习者。
重点在这里:他说的 ” 不需要人类数据 ”,不是指不用数据,而是数据来源完全不同。强化学习的逻辑是 ” 试错 ”——做一个动作,环境反馈 reward,然后调整策略。棋类游戏天然适合这个框架,因为输赢是明确的信号。但 Silver 真正想攻的是更通用的场景。强化学习从零学习的范式,如果真的能泛化到真实世界,那意味着什么?意味着训练 AI 不再依赖海量人工标注数据,不再被数据成本卡脖子。
这对国内 AI 从业者冲击是大的。我们这一波大模型热潮,底色是 Transformer 架构加上海量人类文本。Scaling Law 在 Scaling 算力、数据、参数,这条路已经有人在跑了。OpenAI、Anthropic、Google 都是这个路数。OpenAI 靠的不是理论创新,是工程能力和数据堆积。这条路国内也在跟,追得很紧。
但 Silver 在做的事,是另起炉灶。他赌的是强化学习这条老路能出新东西。某种程度上,AlphaZero 已经证明过一次了——没有人类知识,照样能超越人类知识。这条路难,但一旦跑通,意义不一样。
国内现在有没有人在跟?有的,但声音不大。强化学习在游戏场景已经用得很成熟,但走出游戏、走向真实世界的任务,环境建模、reward 设计,都是坑。门槛高,进展慢,资本热度也不如生成式 AI。但恰恰是这种地方,机会才大。
还有一个细节值得注意:他说收益要捐给高影响力慈善机构。这话听着有点虚,但放在他这个量级的人身上,信号意义更强——他不是来赚快钱的。这会影响投资人对这家公司长期主义的判断,也会影响人才愿不愿意进来。顶级研究员最怕的是什么?项目做着做着变成短视商业化。Silver 提前把这个预期管理了。
伦敦这个城市也在浮出水面。DeepMind 本身就在伦敦,这些年从 DeepMind 出去创业的公司已经有一打了。人才密度、学术氛围、早期资本,这个生态正在成型。以前 AI 重镇只有硅谷,现在伦敦有机会分一杯羹。这对欧洲的 AI 发展是个好事,对我们来说也是一种参照——生态这东西,不是靠砸钱能砸出来的。
对国内从业者的直接影响?我的看法是,短期内不用慌,大模型的路还没走到头,Scaling 的红利还有。但长期看,如果 Silver 这套强化学习路线真的出来了,我们能不能接住是个问题。技术路线切换的窗口期不会太长,人家验证完了,你才开始立项黄花菜都凉了。现在该布局就布局,游戏、机器人、自动化仿真环境,这些方向和强化学习天然亲近。早点积累经验值,不亏。
但也别盲目追概念。强化学习的坑比大家想象的多。Sample efficiency 低、环境建模难、reward function 设计玄学……这些都是工程上的硬骨头。AlphaZero 能成,是因为棋类环境足够干净。真实世界不是棋盘,没法那么干净的建模。Silver 能不能解决这个问题,我持谨慎乐观。51 亿美元的估值,有一半赌的是他这个人,不是这个技术方向。
最后说一句:AI 这条路上,总有人在另辟蹊径。有人靠堆算力碾压,有人靠理论突破。两条路都能走出来,区别只是谁先到。Silver 选择了最难的那条,钦佩,但不盲从。
叨叨怎么看:51 亿估值是市场对强化学习路线的票选,不是对技术成熟的认可。国内与其盯着看热闹,不如把这笔钱当成风向标——资本在押注 ” 不需要人类数据 ” 这个命题。这个方向能否跑通还不知道,但一旦跑通,游戏规则就变了。早点下场积累,别等水开了才找壶。