美林数据依托丰富数字化技术与超过3000个产业数字化服务实战案例的积累,将产业实践与高校教育紧密结合,形成“以产促教、以教助产”的良性循环,全力助推高校数智化人才的培养。至今,已成功助力全国超过300所高校,为数智人才培养贡献美林力量。
为你推荐
RECOMMEND FOR YOU
tempo talents数智人才应用能力解决方案
美林数据将以产业实践为基础、数字经济时代的高质量人才供给为目标,聚焦行业用人需求,以大数据人才“应用能力”培养为核心,为大数据产业高质量发展和数字中国建设贡献了美林智慧与力量。
为你推荐
RECOMMEND FOR YOU
tempo talents数智人才应用能力解决方案
400-608-2558

关于我们

美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。
首页关于我们新闻动态

新闻动态

李飞飞最新论文深度解读:从语言到世界,空间智能将重写AI的未来十年
发布时间:2025-11-27 浏览量:0

【前言】如果说大语言模型点燃了人工智能的“语言革命”,那么李飞飞最新发表的长文则试图回答一个更深层的问题:真正的智能是否必须扎根于空间与物理世界?

李飞飞

图 | 李飞飞(来源:World Labs)

在这篇被称为“World Models 研究路线图”的文章中,她不仅提出了空间智能的理论框架,更给出了具体的技术方向与实现路径,清晰勾勒出AI 下一个十年的主航道。

World Models 研究路线图

原文链接:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence?subscribe_prompt=free

 而就在这股浪潮中,我们也尝试用 Marble 构建了一个小而真实的样本:一个完全由AI生成、可漫游的“蘑菇屋3D场景Demo”。这个Demo虽小,却恰好体现了世界模型的力量——AI 正在从语言迈向空间。

世界模型—蘑菇屋3D Demo

一、语言模型走到了极限——AI 需要一双“看世界的眼睛”

李飞飞开篇指出当今 AI 的核心矛盾:LLM 很会“说话”,但不会“理解世界”。它们能写小说,却不知道一把椅子转90度后会变成什么样;能生成漂亮的文章,却无法判断两个物体之间的距离。

换句话说,今天的 AI 更像是“经验缺失的文字匠”——聪明,却没有身体;博学,却没有空间直觉。

而真正的智能,必须能回答这些问题:

  • 桌子和灯之间相隔多少?

  • 杯子倒下后会往哪滚?

  • 两个物体会不会相撞?

  • 这个房间能不能再放下一张床?

这些能力不是语言,而是空间智能。

二、空间智能:人类心智的隐形操作系统

李飞飞提出一个关键观点:空间智能是人类认知的底层操作系统。

孩子在会说话前,就能理解“物体不会凭空消失”;成年人在走路时,不会每一步都计算角度和速度;驾驶员能凭直觉判断车距。这种能力支撑着人类的所有高级认知:

  • 对世界的理解

  • 对风险的预测

  • 对行为的规划

  • 对想象力的构建

而今天的 AI,仍然缺少这一部分。

三、答案不是更大的 LLM,而是“世界模型”(World Models)

李飞飞提出 AI 的下一阶段不是 GPT-6、GPT-7,而是:世界模型(World Models),一个能理解、生成、预测、操控空间世界的“空间大脑”。

它包含三项核心能力:

01、生成性:能构建一个一致的世界

不仅是图像,而是完整的 3D 结构、物理逻辑和动态变化。

02、多模态:能从更多输入理解世界

图像、深度、视频、动作、触觉、文本指令……

03、交互性:能在世界中行动

预测动作效果,形成观察—推理—行动闭环。

如果 LLM 是“文字生成器”,那么世界模型就是“空间逻辑生成器”。

World Labs创始人团队

图|World Labs创始人团队,左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞(来源:World Labs)

四、技术路线:如何真正构建世界模型?

李飞飞提出未来五年的三大攻坚方向:

01、寻找统一的世界建模任务函数

就像语言模型预测下一个 token,世界模型需要一个能统一几何、物理、语义、动态的预测目标。这是最深的科学难题。

02、规模化的空间数据训练

海量视频、深度、点云、3D扫描、触觉数据……

核心突破是让 AI 从 2D 像素中恢复 3D 世界结构。

03、全新的空间架构设计

需要新的 3D token、显式空间记忆、连续世界状态网络,以及近期出现的 RTFM(保持时空一致性的视频生成框架)。

世界模型不是 LLM 的补丁,而是新的 AI 物种。

五、构建“小世界”:用Marble生成的“蘑菇屋3D Demo”

在这场“从语言到世界”的技术迁移中,我们也做了一次小小的尝试。

基于 Marble,我们制作了一个完全由世界模型生成、可漫游的蘑菇屋3D场景 Demo:

  • 输入一句自然语言描述


用Marble生成的“蘑菇屋3D Demo

  • Marble自动生成场景中的地形、房体结构、材质

  • 支持从第一视角自由走动

  • 光照、阴影、空间结构保持一致

  • 场景内部的石板路、树木及房屋都具有可辨识的三维关系

更重要的是,这个 Demo 不仅是“渲染的画面”,而是一个 可以进入、可以理解、可以探索的空间世界。

但真正让人感到“世界模型的力量”的,并不仅是一个可爱的蘑菇外形。我们在蘑菇屋内部嵌入了两个截然不同的空间:一个是紧凑但完整的现代化一居室酒店房间,另一个则是光影与色彩丰富的迷你游戏厅。两个空间并非简单拼贴,而是由 Marble 在同一世界坐标系中完成:

  • 一居室中的床、书桌、洗浴间被自然地安置在空间结构内;

  • 游戏厅里的街机设备、灯箱、座椅也自动保持正确的尺度、距离和遮挡关系;

  • 跨空间的光影渲染保持连续;

  • 行走路径、空间逻辑、房间连接全部由模型自洽生成。

世界模型—蘑菇屋3D Demo

整个体验过程不像浏览一段渲染动画,更像是亲自走进了一座真实存在的小世界。

如果说图像生成是“拍一张照片”,那么 Marble 更像是“搭建一个真实存在的地方”。这个小小的蘑菇屋,让人第一次直观感受到:AI 正在从表达信息,走向生成世界本身。

这正是李飞飞论文所强调的未来方向。

六、未来:空间智能将改变五大领域

李飞飞将世界模型的应用归纳为三个阶段。

01、短期:内容生产的空间化

游戏、动画、建筑、工业设计、虚拟世界创作。

未来的创作者将从“画画”变成“造世界”。

02、中期:机器人与具身智能的突破

世界模型将成机器人“认知层”的核心。

它让机器人第一次真正理解现实中的空间结构。

03、长期:科学研究的重新定义

药物空间结构推理、材料探索、气候模拟、复杂系统预测……

世界模型可能成为科学家的“智能显微镜”。

七、AI 的未来不是取代人,而是扩展人类能力

李飞飞在论文最后写道:AI 的使命不是替代,而是增强人类。

世界模型将让 AI 从“会说话”走向“会理解世界”。

它会成为:

  • 科学家的模拟器

  • 创作者的虚拟工作室

  • 城市的空间大脑

  • 机器人的世界观

当 AI 终于拥有了空间智能,人类也将拥有新的工具去理解世界、创造世界。

而今天我们搭建的这间蘑菇屋,也许只是未来万千虚拟世界中的一个原点。

end

上一篇:《教师生成式人工智能应用指引(第一版)》专家解读|当教师遇到生成式人工智能:应为与边界

下一篇:美林数据当选光合组织教育专委会理事单位,共推AI产教融合新生态

立即免费申请产品试用
快乐分享
网站地图
解决方案
数据科学与大数据技术专业
大数据管理与应用专业
数字经济专业
人工智能专业
大数据技术专业
专业+大数据
大模型创新应用平台
工业互联网实验实训解决方案
区域级产教融合大数据应用创新解决方案
数据治理人才培养解决方案
客户故事
产业实践
合作高校
用户声音
协同育人
数据超市
电力
煤炭
油气
水务
制造
工商
电商
零售
交通
数实融合智力服务
关于我们
美林数据
应用场景
专家团队
生态合作
服务体系
新闻动态
行业资讯