扫码下载 APP
qrCode
更多下载方式
今天不再提醒

李飞飞谈 LLM 下一步:AI 必须拥有「空间智慧」才能理解真实世界,Marble 如何实现?

World Labs 创办人,有「AI 教母」美誉的李飞飞接受专访,讨论 AI 需超越语言,发展「空间智慧」,让机器真正理解并建构 3D 物理世界。 (前情提要:a16z 前合伙人重磅科技报告:AI 如何吞噬世界?) (背景补充:桥水达利欧:现在抛售AI股票还太早!因为「刺破泡沫的针」还没上场) 在大型语言模型席卷全球的当下,被誉为「AI 教母」的史丹佛大学教授李飞飞(Fei-Fei Li),已经将目光投向了人工智慧的下一个疆界:空间智慧(Spatial Intelligence)。 在离开 Google Cloud 后,李飞飞创办了备受瞩目的新创公司 World Labs,并推出了首款世界模型产品 Marble。在本次《Eye on AI》的深度访谈中,李飞飞详细阐述了为何 AI 不能仅止于理解文字,而必须具备「看见」、「感知」并「构建」3D 世界的能力。 本篇访谈触及了许多核心议题,包括: 超越语言: 为什么人类知识无法完全被文字捕捉,AI 需要多模态的学习? 技术解密: World Labs 的「RTFM」模型如何仅用一张 GPU 就能生成具备几何一致性的 3D 世界? 学术观点: 李飞飞的方法论与 Meta 首席 AI 科学家 Yann LeCun 的世界模型理念有何异同? 未来展望: AI 何时能真正理解物理定律,甚至展现出科学探索的创造力? 以下是本次精彩对话的完整中译。 主持人: 我不想花太多时间谈论 Marble——也就是妳那个能生成让观众在其中移动的、具有一致性和持久性 3D 世界的新模型,虽然它真的很棒。我想更多地探讨妳为什么专注于「世界模型」和「空间智慧」?为什么这对于超越语言学习是必要的?以及妳的方法与 Yann LeCun(杨立昆)的方法有何不同? 首先能请妳谈谈,世界模型是从妳在环境智慧(Ambient Intelligence)的研究中衍生出来的,还是一个平行的研究轨道? 李飞飞: 过去几年我一直在思考的空间智慧工作,确实是我整个职业生涯专注于电脑视觉和视觉智慧的延续。我之所以强调「空间」,是因为我们的技术已经发展到一个程度,其复杂度和深层能力不再仅止于看图或理解简单影片。它是深度的感知、空间性的,并且连接到机器人技术、具身 AI 和环境 AI。所 以从这个角度来看,这真的是我在电脑视觉和 AI 领域生涯的延续。 主持人: 关于空间智慧的重要性,我在这个 Podcast 上也谈过一阵子。语言模型是从编码在文字中的人类知识学习的,但那只是人类知识的一小部分。正如妳和其他许多人指出的,人类很多时候是在没有语言的情况下透过与世界互动来学习的。所以这很重要,尽管目前的 LLM 很惊人,但我们若要超越它们,就需要开发出能更直接体验世界、直接从世界中学习的模型。 妳的方法——当然 Marble 是个例子——是提取模型学到的世界内部表征(internal representations),并用这些表征创造出一个外部的视觉实境。而 LeCun(杨立昆) 的方法则是从直接体验或影片输入中建立内部表征,让模型学习运动物理定律之类的东西。这两者之间有平行关系吗?这两种方法是互补的还是重叠的? 李飞飞: 首先,我其实不会把我与 Yann 对立起来,因为我认为我们都处于通往空间智慧和世界模型的学术光谱上。妳可能读过我最近发表的长文《空间智慧宣言(Manifesto of Spatial Intelligence)》,我在里面说得很清楚。我实际上认为,如果我们最终要考虑一个通用的、全能的世界模型,那么「隐式表征(implicit representation)」和最终某种程度的「显式表征(explicit representation)」——特别是在输出层——可能都是需要的。它们各自扮演不同的角色。 例如,World Labs 目前的世界模型 Marble 确实会明确输出 3D 表征,但在模型内部,除了显式输出外,其实也存在隐式表征。老实说,我认为最终我们两者都需要。 至于输入模态,是的,从影片中学习非常重要。整个世界是由大量连续帧数组成的输入,但对于智慧体或仅仅是动物来说,世界不仅是被动的观看。它还包含运动、互动、触觉体验、声音、气味以及物理力、温度等具身(embodied)体验。所以我认为这是深度的多模态(multimodal)。 当然,Marble 作为一个模型只是第一步,但在我们几天前发布的技术文章中,我们很清楚地表明,我们相信多模态既是一种学习范式,也是一种输入范式。关于这一点有很多学术讨论,这也显示了这个领域早期的兴奋感。所以我不会说我们已经完全探索完了确切的模型架构和表征形式。 主持人: 在妳的世界模型中,输入主要是影片,然后模型会建立一个世界的内部表征吗? 李飞飞: 不完全是。如果你体验过我们的世界模型 Marble,它的输入其实非常多模态。你可以使用纯文字、单张或多张图片、影片,也可以输入粗略的 3D 布局(如方块或体素 Voxels)。所以它是多模态的,而且我们会随着发展继续深化这一点。 主持人: 除了作为一个拥有许多应用的出色产品外,妳的野心是否在于建立一个系统——就像我说输入是影片那样——一个能从直接经验中学习的系统?无论是透过影片还是其他模态,而不是透过像文字这样的次级媒介来学习? 李飞飞: 是的,我认为世界模型就是关于学习这个世界,而世界是非常多模态的。无论是机器还是动物,我们都是多重感官的。学习是透过感知进行的,而感知有不同的模态。 文字是其中一种形式。这也是我们与动物不同的地方,因为大多数动物不透过复杂的语言学习,但人类会。不过,今天的 AI 世界模型会从大量的语言输入以及其他模态中学习,但不会仅仅被限缩在语言这一种管道中。 主持人: LLM 的限制之一是模型参数在训练后就固定了,模型不会持续学习。虽然在测试推论(inference)时有一定程度的学习,但这也是你们在世界模型中要解决的问题吗?因为照理说,世界模型在遇到新环境时应该要能持续学习。 李飞飞: 是的…

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)