World Labsの創設者であり、「AIのゴッドマザー」として知られるLi Feifei氏は、AIが言語を超えて「空間知能」を開発し、機械が3D物理世界を真に理解し構築できるようにする必要性についてインタビューを受けました。 (あらすじ:a16z元パートナーの大ヒット技術レポート:AIは世界をどう食っているのか? (背景追加:ブリッジウォーター・ダリオ:AI株を売るのは時期尚早です! なぜなら、「バブルを貫く針」はまだ再生されていないからだ) 大規模な言語モデルが世界を席巻している今、「AIのゴッドマザー」として知られるスタンフォード大学のFei-Fei Li教授は、人工知能の次のフロンティアである空間知能に照準を合わせています。 Google Cloud を退社した後、Li Feifei は注目度の高いスタートアップ企業 World Labs を設立し、最初のワールド モデル プロダクトである Marble を発売しました。 Eye on AIとのこの詳細なインタビューで、Li Feifeiは、AIが言葉を理解するだけでなく、3D世界を「見る」「知覚する」「構築する」能力を持たなければならない理由について詳しく説明します。 このインタビューでは、言語を超えて:なぜ人間の知識を言葉で完全に捉えることができないのか、AIにはマルチモーダル学習が必要なのか? 技術的な解読:World Labsの「RTFM」モデルは、1つのGPUだけで幾何学的に一貫性のある3D世界をどのように生成できますか? アカデミックオピニオン:Li Feifeiの方法論と、MetaのチーフAIサイエンティストであるYann LeCunの世界モデルの概念との類似点と相違点は何ですか? 今後の展望:AIが物理法則を真に理解し、科学的な探究の創造性を発揮するのはいつになるのでしょうか? この素晴らしい会話の全文を中国語で翻訳します。 司会者:Marbleについて話すのにあまり時間をかけたくありません。これは、視聴者を動かす一貫性のある永続的な3D世界を生成する新しいモデルですが、それは本当に素晴らしいことです。 なぜ「ワールドモデル」や「空間知能」に注目するのか、もっと詳しく知りたいのですが。 なぜ、言語学習にとどまらない必要があるのでしょうか? また、あなたの方法はヤン・ルカンの方法とどう違うのですか? まず、このワールドモデルはアンビエント・インテリジェンスの研究から生まれたものなのか、それとも並行した研究トラックなのか、お話しいただけますか? Feifei Li: 私が過去数年間考えてきた空間インテリジェンスの仕事は、実際には、コンピュータービジョンとビジュアルインテリジェンスに焦点を当てた私のキャリア全体の延長線上にあります。 私が「空間」を強調するのは、私たちの技術が進歩し、その複雑さと深さは、もはや写真を見たり、単純な映画を理解したりするだけにとどまらないからです。 それは深さを知覚し、空間的であり、ロボティクス、具現化されたAI、および環境AIに関連しています。 その観点からは、コンピュータビジョンとAIにおける私のキャリアの継続と言えるでしょう。 司会者:私もこのポッドキャストで空間知能の重要性についてしばらくお話ししました。 言語モデルは、単語にエンコードされた人間の知識から学習しますが、それは人間の知識のほんの一部にすぎません。 あなたや他の多くの人々が指摘しているように、人間はしばしば言語なしで世界と対話することによって学びます。 ですから、これは重要なことであり、現在のLLMは素晴らしいものですが、それを超えるためには、世界をより直接的に体験し、そこから直接学ぶモデルを開発する必要があります。 あなたのアプローチは、もちろん Marble もその例ですが、モデルによって学習された内部表現を取り込み、それらの表現を使用して外部の視覚的現実を作成することです。 一方、LeCunのアプローチは、直接的な経験やビデオ入力から内部表現を構築し、モデルが運動物理学の法則などを学習できるようにします。 両者の間には平行な関係がありますか? この 2 つのアプローチは補完的ですか、それとも重複していますか? Feifei Li:まず第一に、私は実際にYannと対立しているわけではありません、なぜなら、私たちは両方とも空間知能と世界モデルにつながる学術的なスペクトルにいると思うからです。 私の最近の長い記事「空間知能のマニフェスト」で、私が明確にした記事を読んだことがあるかもしれません。 実際、私たちが最終的に世界の普遍的で全能のモデルを考えようとするなら、「暗黙の表象」と最終的にはある程度の「明示的な表象」の両方が必要になるかもしれないと私は考えています。 それぞれが異なる役割を果たします。 たとえば、World Labs の現在のワールド モデルである Marble は、明示的に 3D 表現を出力しますが、モデル内には、明示的な出力に加えて暗黙的な表現があります。 正直なところ、最終的には両方が必要だと思います。 インプット・モダリティについては、はい、映画から学ぶことは非常に重要です。 全世界は多数の連続したフレームで構成される入力ですが、エージェントや単に動物にとって、世界は単なる受動的なビューではありません。 また、動き、相互作用、触覚体験、音、匂い、物理的な力や温度などの具体化された体験も含まれます。 だから、ディープなマルチモーダルだと思います。 もちろん、モデルとしてのMarbleは最初のステップにすぎませんが、数日前に公開した技術記事では、マルチモダリティは学習パラダイムであり、インプットパラダイムでもあると私たちが信じていることを明確にしました。 これについては多くの学術的な議論が行われており、この分野での初期の興奮も示しています。 ですから、正確なモデルのアーキテクチャと表現を完全に探求したとは言えません。 司会者:あなたの世界モデルでは、入力は主にビデオで、その後、モデルが世界の内部表現を構築しますか? 李飛飛:そうではありません。 私たちのワールドモデルであるMarbleを体験したことがあるなら、その入力は実際には非常にモーダルです。 プレーンテキスト、単一または複数の画像、ムービーを使用することも、正方形やボクセルボクセルなどの大まかな3Dレイアウトを入力することもできます。 つまり、これはマルチモーダルであり、私たちは進化しながらそれを深めていきます。 インタビュアー:多くのアプリケーションを備えた優れた製品であることに加えて、インプットが映画であると言ったように、直接的な経験から学ぶシステムを構築するというあなたの野望はありますか? それは、テキストのような二次的な媒体ではなく、ビデオやその他のモダリティを通じて学習しているのでしょうか? Feifei Li:はい、ワールドモデルは世界について学ぶことであり、世界は非常にマルチモーダルだと思います。 それが機械であろうと動物であろうと、私たちは多感覚です。 学習は知覚を通じて行われ、知覚にはさまざまなモダリティがあります。 言葉もその一つです。 これは、ほとんどの動物が複雑な言語を通じて学習しないのに対し、人間は学習するので、私たちを動物と区別する点でもあります。 しかし、今日のAI世界モデルは、多数の言語入力やその他のモダリティから学習しますが、チャネルとしての言語だけに限定されるものではありません。 モデレーター: LLM の制限の 1 つは、トレーニング後にモデルのパラメーターが固定され、モデルが継続的に学習しないことです。 推論のテストにはある程度の学習がありますが、これはあなたの世界のモデルで解決しようとしていることですか? なぜなら、ワールドモデルが新しい環境に遭遇したときに継続的に学習できる必要があるのは当然だからです。 李飛飛: ええ…
212.76K 人気度
1.16K 人気度
169 人気度
251 人気度
200 人気度
李飛飛がLLMの次のステップについて語る:AIは「空間知性」を持たなければ現実世界を理解できない。Marbleはどのように実現するのか?
World Labsの創設者であり、「AIのゴッドマザー」として知られるLi Feifei氏は、AIが言語を超えて「空間知能」を開発し、機械が3D物理世界を真に理解し構築できるようにする必要性についてインタビューを受けました。 (あらすじ:a16z元パートナーの大ヒット技術レポート:AIは世界をどう食っているのか? (背景追加:ブリッジウォーター・ダリオ:AI株を売るのは時期尚早です! なぜなら、「バブルを貫く針」はまだ再生されていないからだ) 大規模な言語モデルが世界を席巻している今、「AIのゴッドマザー」として知られるスタンフォード大学のFei-Fei Li教授は、人工知能の次のフロンティアである空間知能に照準を合わせています。 Google Cloud を退社した後、Li Feifei は注目度の高いスタートアップ企業 World Labs を設立し、最初のワールド モデル プロダクトである Marble を発売しました。 Eye on AIとのこの詳細なインタビューで、Li Feifeiは、AIが言葉を理解するだけでなく、3D世界を「見る」「知覚する」「構築する」能力を持たなければならない理由について詳しく説明します。 このインタビューでは、言語を超えて:なぜ人間の知識を言葉で完全に捉えることができないのか、AIにはマルチモーダル学習が必要なのか? 技術的な解読:World Labsの「RTFM」モデルは、1つのGPUだけで幾何学的に一貫性のある3D世界をどのように生成できますか? アカデミックオピニオン:Li Feifeiの方法論と、MetaのチーフAIサイエンティストであるYann LeCunの世界モデルの概念との類似点と相違点は何ですか? 今後の展望:AIが物理法則を真に理解し、科学的な探究の創造性を発揮するのはいつになるのでしょうか? この素晴らしい会話の全文を中国語で翻訳します。 司会者:Marbleについて話すのにあまり時間をかけたくありません。これは、視聴者を動かす一貫性のある永続的な3D世界を生成する新しいモデルですが、それは本当に素晴らしいことです。 なぜ「ワールドモデル」や「空間知能」に注目するのか、もっと詳しく知りたいのですが。 なぜ、言語学習にとどまらない必要があるのでしょうか? また、あなたの方法はヤン・ルカンの方法とどう違うのですか? まず、このワールドモデルはアンビエント・インテリジェンスの研究から生まれたものなのか、それとも並行した研究トラックなのか、お話しいただけますか? Feifei Li: 私が過去数年間考えてきた空間インテリジェンスの仕事は、実際には、コンピュータービジョンとビジュアルインテリジェンスに焦点を当てた私のキャリア全体の延長線上にあります。 私が「空間」を強調するのは、私たちの技術が進歩し、その複雑さと深さは、もはや写真を見たり、単純な映画を理解したりするだけにとどまらないからです。 それは深さを知覚し、空間的であり、ロボティクス、具現化されたAI、および環境AIに関連しています。 その観点からは、コンピュータビジョンとAIにおける私のキャリアの継続と言えるでしょう。 司会者:私もこのポッドキャストで空間知能の重要性についてしばらくお話ししました。 言語モデルは、単語にエンコードされた人間の知識から学習しますが、それは人間の知識のほんの一部にすぎません。 あなたや他の多くの人々が指摘しているように、人間はしばしば言語なしで世界と対話することによって学びます。 ですから、これは重要なことであり、現在のLLMは素晴らしいものですが、それを超えるためには、世界をより直接的に体験し、そこから直接学ぶモデルを開発する必要があります。 あなたのアプローチは、もちろん Marble もその例ですが、モデルによって学習された内部表現を取り込み、それらの表現を使用して外部の視覚的現実を作成することです。 一方、LeCunのアプローチは、直接的な経験やビデオ入力から内部表現を構築し、モデルが運動物理学の法則などを学習できるようにします。 両者の間には平行な関係がありますか? この 2 つのアプローチは補完的ですか、それとも重複していますか? Feifei Li:まず第一に、私は実際にYannと対立しているわけではありません、なぜなら、私たちは両方とも空間知能と世界モデルにつながる学術的なスペクトルにいると思うからです。 私の最近の長い記事「空間知能のマニフェスト」で、私が明確にした記事を読んだことがあるかもしれません。 実際、私たちが最終的に世界の普遍的で全能のモデルを考えようとするなら、「暗黙の表象」と最終的にはある程度の「明示的な表象」の両方が必要になるかもしれないと私は考えています。 それぞれが異なる役割を果たします。 たとえば、World Labs の現在のワールド モデルである Marble は、明示的に 3D 表現を出力しますが、モデル内には、明示的な出力に加えて暗黙的な表現があります。 正直なところ、最終的には両方が必要だと思います。 インプット・モダリティについては、はい、映画から学ぶことは非常に重要です。 全世界は多数の連続したフレームで構成される入力ですが、エージェントや単に動物にとって、世界は単なる受動的なビューではありません。 また、動き、相互作用、触覚体験、音、匂い、物理的な力や温度などの具体化された体験も含まれます。 だから、ディープなマルチモーダルだと思います。 もちろん、モデルとしてのMarbleは最初のステップにすぎませんが、数日前に公開した技術記事では、マルチモダリティは学習パラダイムであり、インプットパラダイムでもあると私たちが信じていることを明確にしました。 これについては多くの学術的な議論が行われており、この分野での初期の興奮も示しています。 ですから、正確なモデルのアーキテクチャと表現を完全に探求したとは言えません。 司会者:あなたの世界モデルでは、入力は主にビデオで、その後、モデルが世界の内部表現を構築しますか? 李飛飛:そうではありません。 私たちのワールドモデルであるMarbleを体験したことがあるなら、その入力は実際には非常にモーダルです。 プレーンテキスト、単一または複数の画像、ムービーを使用することも、正方形やボクセルボクセルなどの大まかな3Dレイアウトを入力することもできます。 つまり、これはマルチモーダルであり、私たちは進化しながらそれを深めていきます。 インタビュアー:多くのアプリケーションを備えた優れた製品であることに加えて、インプットが映画であると言ったように、直接的な経験から学ぶシステムを構築するというあなたの野望はありますか? それは、テキストのような二次的な媒体ではなく、ビデオやその他のモダリティを通じて学習しているのでしょうか? Feifei Li:はい、ワールドモデルは世界について学ぶことであり、世界は非常にマルチモーダルだと思います。 それが機械であろうと動物であろうと、私たちは多感覚です。 学習は知覚を通じて行われ、知覚にはさまざまなモダリティがあります。 言葉もその一つです。 これは、ほとんどの動物が複雑な言語を通じて学習しないのに対し、人間は学習するので、私たちを動物と区別する点でもあります。 しかし、今日のAI世界モデルは、多数の言語入力やその他のモダリティから学習しますが、チャネルとしての言語だけに限定されるものではありません。 モデレーター: LLM の制限の 1 つは、トレーニング後にモデルのパラメーターが固定され、モデルが継続的に学習しないことです。 推論のテストにはある程度の学習がありますが、これはあなたの世界のモデルで解決しようとしていることですか? なぜなら、ワールドモデルが新しい環境に遭遇したときに継続的に学習できる必要があるのは当然だからです。 李飛飛: ええ…