🎉 Gate 廣場 · 分享幣圈搞笑段子,贏 $100 快樂基金!
幣圈太刺激?那就來 Gate 廣場一起笑一笑。
不管是爆倉名場面、FOMO 迷惑行爲、錯過漲幅的靈魂吶喊——
發帖分享你最搞笑的 Crypto 瞬間,我們請你贏“快樂基金”!
💰 獎勵規則
精選 10 位最有梗的創作者,
每人可獲得 $10 快樂基金(代幣獎勵)。
📝 參與方式
1⃣️ 關注 Gate廣場_Official
2⃣️ 帶上話題 #我的币圈搞笑瞬间 發帖
3⃣️ 內容不限:自嘲、名場面、梗圖、迷惑操作都可以!
(圖文/短視頻/表情包都歡迎)
📌 注意事項
必須帶 #我的币圈搞笑瞬间 標籤,否則無法參與評選
重復、抄梗內容將被排除
內容需 30 字以上,並獲得 至少 3 個互動
⏰ 活動截止時間:12 月 7 日 24:00(UTC+8)
來 Gate 廣場,一起把虧過的、踏空的、笑噴的…全部變成 快樂基金!
李飛飛談 LLM 下一步:AI 必須擁有「空間智慧」才能理解真實世界,Marble 如何實現?
World Labs 創辦人,有「AI 教母」美譽的李飛飛接受專訪,討論 AI 需超越語言,發展「空間智慧」,讓機器真正理解並建構 3D 物理世界。 (前情提要:a16z 前合夥人重磅科技報告:AI 如何吞噬世界?) (背景補充:橋水達利歐:現在拋售AI股票還太早!因為「刺破泡沫的針」還沒上場) 在大型語言模型席捲全球的當下,被譽為「AI 教母」的史丹佛大學教授李飛飛(Fei-Fei Li),已經將目光投向了人工智慧的下一個疆界:空間智慧(Spatial Intelligence)。 在離開 Google Cloud 後,李飛飛創辦了備受矚目的新創公司 World Labs,並推出了首款世界模型產品 Marble。在本次《Eye on AI》的深度訪談中,李飛飛詳細闡述了為何 AI 不能僅止於理解文字,而必須具備「看見」、「感知」並「構建」3D 世界的能力。 本篇訪談觸及了許多核心議題,包括: 超越語言: 為什麼人類知識無法完全被文字捕捉,AI 需要多模態的學習? 技術解密: World Labs 的「RTFM」模型如何僅用一張 GPU 就能生成具備幾何一致性的 3D 世界? 學術觀點: 李飛飛的方法論與 Meta 首席 AI 科學家 Yann LeCun 的世界模型理念有何異同? 未來展望: AI 何時能真正理解物理定律,甚至展現出科學探索的創造力? 以下是本次精彩對話的完整中譯。 主持人: 我不想花太多時間談論 Marble——也就是妳那個能生成讓觀眾在其中移動的、具有一致性和持久性 3D 世界的新模型,雖然它真的很棒。我想更多地探討妳為什麼專注於「世界模型」和「空間智慧」?為什麼這對於超越語言學習是必要的?以及妳的方法與 Yann LeCun(楊立昆)的方法有何不同? 首先能請妳談談,世界模型是從妳在環境智慧(Ambient Intelligence)的研究中衍生出來的,還是一個平行的研究軌道? 李飛飛: 過去幾年我一直在思考的空間智慧工作,確實是我整個職業生涯專注於電腦視覺和視覺智慧的延續。我之所以強調「空間」,是因為我們的技術已經發展到一個程度,其複雜度和深層能力不再僅止於看圖或理解簡單影片。它是深度的感知、空間性的,並且連接到機器人技術、具身 AI 和環境 AI。所 以從這個角度來看,這真的是我在電腦視覺和 AI 領域生涯的延續。 主持人: 關於空間智慧的重要性,我在這個 Podcast 上也談過一陣子。語言模型是從編碼在文字中的人類知識學習的,但那只是人類知識的一小部分。正如妳和其他許多人指出的,人類很多時候是在沒有語言的情況下透過與世界互動來學習的。所以這很重要,儘管目前的 LLM 很驚人,但我們若要超越它們,就需要開發出能更直接體驗世界、直接從世界中學習的模型。 妳的方法——當然 Marble 是個例子——是提取模型學到的世界內部表徵(internal representations),並用這些表徵創造出一個外部的視覺實境。而 LeCun(楊立昆) 的方法則是從直接體驗或影片輸入中建立內部表徵,讓模型學習運動物理定律之類的東西。這兩者之間有平行關係嗎?這兩種方法是互補的還是重疊的? 李飛飛: 首先,我其實不會把我與 Yann 對立起來,因為我認為我們都處於通往空間智慧和世界模型的學術光譜上。妳可能讀過我最近發表的長文《空間智慧宣言(Manifesto of Spatial Intelligence)》,我在裡面說得很清楚。我實際上認為,如果我們最終要考慮一個通用的、全能的世界模型,那麼「隱式表徵(implicit representation)」和最終某種程度的「顯式表徵(explicit representation)」——特別是在輸出層——可能都是需要的。它們各自扮演不同的角色。 例如,World Labs 目前的世界模型 Marble 確實會明確輸出 3D 表徵,但在模型內部,除了顯式輸出外,其實也存在隱式表徵。老實說,我認為最終我們兩者都需要。 至於輸入模態,是的,從影片中學習非常重要。整個世界是由大量連續幀數組成的輸入,但對於智慧體或僅僅是動物來說,世界不僅是被動的觀看。它還包含運動、互動、觸覺體驗、聲音、氣味以及物理力、溫度等具身(embodied)體驗。所以我認為這是深度的多模態(multimodal)。 當然,Marble 作為一個模型只是第一步,但在我們幾天前發布的技術文章中,我們很清楚地表明,我們相信多模態既是一種學習範式,也是一種輸入範式。關於這一點有很多學術討論,這也顯示了這個領域早期的興奮感。所以我不會說我們已經完全探索完了確切的模型架構和表徵形式。 主持人: 在妳的世界模型中,輸入主要是影片,然後模型會建立一個世界的內部表徵嗎? 李飛飛: 不完全是。如果你體驗過我們的世界模型 Marble,它的輸入其實非常多模態。你可以使用純文字、單張或多張圖片、影片,也可以輸入粗略的 3D 佈局(如方塊或體素 Voxels)。所以它是多模態的,而且我們會隨著發展繼續深化這一點。 主持人: 除了作為一個擁有許多應用的出色產品外,妳的野心是否在於建立一個系統——就像我說輸入是影片那樣——一個能從直接經驗中學習的系統?無論是透過影片還是其他模態,而不是透過像文字這樣的次級媒介來學習? 李飛飛: 是的,我認為世界模型就是關於學習這個世界,而世界是非常多模態的。無論是機器還是動物,我們都是多重感官的。學習是透過感知進行的,而感知有不同的模態。 文字是其中一種形式。這也是我們與動物不同的地方,因為大多數動物不透過複雜的語言學習,但人類會。不過,今天的 AI 世界模型會從大量的語言輸入以及其他模態中學習,但不會僅僅被限縮在語言這一種管道中。 主持人: LLM 的限制之一是模型參數在訓練後就固定了,模型不會持續學習。雖然在測試推論(inference)時有一定程度的學習,但這也是你們在世界模型中要解決的問題嗎?因為照理說,世界模型在遇到新環境時應該要能持續學習。 李飛飛: 是的…