Лі Фейфей, засновниця World Labs і відома як «Хрещена мати штучного інтелекту», дала інтерв'ю, щоб обговорити необхідність виходу штучного інтелекту за рамки мови та розвитку «просторового інтелекту», щоб машини могли по-справжньому розуміти та конструювати 3D-фізичний світ. (Синопсис: Звіт про технологію блокбастера колишнього партнера a16z: Як штучний інтелект пожирає світ? (Передісторія додана: Бріджвотер Даліо: Ще занадто рано продавати акції штучного інтелекту!) Тому що «голка, що проколює міхур» ще не зіграла) У той час, коли масштабні мовні моделі захлеснули світ, Фей-Фей Лі, професор Стенфордського університету, відома як «хрещена мати штучного інтелекту», націлилася на наступний рубіж штучного інтелекту: просторовий інтелект. Після відходу з Google Cloud Лі Фейфей заснував гучний стартап World Labs і запустив перший продукт світової моделі Marble. У цьому детальному інтерв'ю для Eye on AI Лі Фейфей детально пояснює, чому штучний інтелект повинен не лише розуміти слова, але й мати здатність «бачити», «сприймати» та «будувати» 3D-світ. Це інтерв'ю торкається низки ключових тем, зокрема: За межами мови: чому людські знання не можуть бути повністю охоплені словами, а штучний інтелект потребує мультимодального навчання? Технічна розшифровка: Як модель «RTFM» від World Labs може створювати геометрично стабільні 3D-світи лише за допомогою одного графічного процесора? Наукова думка: У чому схожість та відмінність між методологією Лі Фейфея та концепцією моделі світу Янна Лекуна, головного наукового співробітника Meta з питань штучного інтелекту? Перспективи на майбутнє: коли штучний інтелект по-справжньому зрозуміє закони фізики і навіть продемонструє креативність наукових досліджень? Пропонуємо вашій увазі повний китайський переклад цієї чудової розмови. Ведучий: Я не хочу витрачати надто багато часу на розмови про Marble — вашу нову модель, яка створює послідовний і стійкий 3D-світ, що рухає глядача крізь нього, хоча він справді чудовий. Я хочу дізнатися більше про те, чому ви зосереджуєтеся на «моделях світу» та «просторовому інтелекті»? Чому це необхідно для виходу за рамки вивчення мови? І чим ваш метод відрізняється від методу Янна Лекуна? Перш за все, чи можете ви розповісти про те, чи є модель світу похідною від ваших досліджень в області Ambient Intelligence, чи це паралельний дослідницький трек? Фейфей Лі: Робота в галузі просторового інтелекту, про яку я думаю останні кілька років, насправді є продовженням усієї моєї кар'єри, зосередженої на комп'ютерному зорі та візуальному інтелекті. Я наголошую на «космосі», тому що наша технологія просунулася настільки, що її складність і глибина вже не обмежуються переглядом картинок чи розумінням простих фільмів. Він глибоко сприймається, просторовий і пов'язаний з робототехнікою, втіленим штучним інтелектом і штучним інтелектом навколишнього середовища. Отже, з цієї точки зору, це дійсно продовження моєї кар'єри в галузі комп'ютерного зору та штучного інтелекту. Ведучий: Я також деякий час говорив про важливість просторового інтелекту в цьому подкасті. Мовні моделі вчаться на людських знаннях, закодованих у словах, але це лише частина людських знань. Як ви та багато інших зазначили, люди часто вчаться, взаємодіючи зі світом без мови. Отже, це важливо, і хоча нинішні LLM дивовижні, якщо ми хочемо вийти за їх межі, нам потрібно розробляти моделі, які сприймають світ більш безпосередньо та вчаться безпосередньо з нього. Ваш підхід — звичайно ж, мармур є прикладом — полягає в тому, щоб взяти внутрішні репрезентації, вивчені моделлю, і використати ці репрезентації для створення зовнішньої візуальної реальності. Підхід Лекуна, з іншого боку, будує внутрішні уявлення на основі безпосереднього досвіду або відеовходу, дозволяючи моделі вивчати такі речі, як закони фізики руху. Чи є між ними паралельний зв'язок? Ці два підходи доповнюють або перетинаються? Фейфей Лі: Перш за все, я не протиставляю себе Янну, тому що я думаю, що ми обидва знаходимося в академічному спектрі, що веде до просторового інтелекту та моделей світу. Можливо, ви читали мою недавню статтю «Маніфест просторового інтелекту», в якій я чітко висловив це. Я насправді вважаю, що якщо ми хочемо врешті-решт розглянути універсальну, всемогутню модель світу, то може знадобитися як «неявна репрезентація», так і, зрештою, певна ступінь «явної репрезентації» — особливо на рівні виходу. Кожен з них відіграє свою роль. Наприклад, поточна модель світу World Labs, Marble, явно виводить 3D-зображення, але всередині моделі є неявні представлення на додачу до явного виведення. Чесно кажучи, я думаю, що в кінцевому підсумку нам потрібно і те, і інше. Що стосується модальностей введення, то так, дуже важливо вчитися з фільму. Весь світ - це вхідні дані, що складаються з великої кількості послідовних кадрів, але для агента або просто тварини світ - це не просто пасивний погляд. Він також включає рух, взаємодію, тактильний досвід, звуки, запахи та втілені досвіди, такі як фізична сила та температура. Тому я думаю, що це глибокий мультимодальний. Звичайно, Marble як модель — це лише перший крок, але в нашій технічній статті, яку ми опублікували кілька днів тому, ми чітко дали зрозуміти, що вважаємо, що мультимодальність — це одночасно і парадигма навчання, і парадигма введення. З цього приводу було багато академічних дискусій, що також свідчить про ранній ажіотаж у цій галузі. Тому я б не сказав, що ми повністю вивчили точну архітектуру та представлення моделі. Модератор: У вашій моделі світу вхідними даними є переважно відео, а потім модель будує внутрішнє представлення світу? Лі Фейфей: Не зовсім. Якщо ви знайомі з нашою моделлю світу, Marble, її введення насправді дуже модальне. Ви можете використовувати звичайний текст, одне або кілька зображень, фільми або ввести приблизний 3D-макет, наприклад квадрати або воксельні вокселі. Отже, це мультимодальність, і ми продовжуватимемо поглиблювати її в міру нашого розвитку. Інтерв'юер: Окрім того, що це чудовий продукт з безліччю застосувань, чи є у вас амбіції побудувати систему – як я вже сказав, вхідні дані – фільм, яка вчиться на безпосередньому досвіді? Це навчання за допомогою відео чи інших способів, а не за допомогою другорядних засобів, таких як текст? Фейфей Лі: Так, я думаю, що модель світу полягає у вивченні світу, а світ дуже мультимодальний. Незалежно від того, чи це машина, чи тварина, ми мультисенсорні. Навчання відбувається за допомогою сприйняття, а сприйняття має різні модальності. Однією з таких форм є слова. Це також відрізняє нас від тварин, тому що більшість тварин не вчаться за допомогою складної мови, але люди вчаться. Однак сьогоднішня модель світу штучного інтелекту навчається з великої кількості вхідних даних мови та інших модальностей, але вона не обмежується лише мовою як каналом. Модератор: Одним з обмежень LLM є те, що параметри моделі фіксуються після навчання, а модель не навчається безперервно. Незважаючи на те, що існує певний рівень навчання в перевірці висновків, чи це те, що ви намагаєтеся вирішити у своїй моделі світу? Тому що зрозуміло, що модель світу повинна мати можливість безперервно вчитися, коли стикається з новим середовищем. Лі Фейфей: Так…
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Лі Фейфей говорить про наступний крок LLM: AI повинні мати «просторову інтуїцію», щоб розуміти реальний світ, як Marble це реалізує?
Лі Фейфей, засновниця World Labs і відома як «Хрещена мати штучного інтелекту», дала інтерв'ю, щоб обговорити необхідність виходу штучного інтелекту за рамки мови та розвитку «просторового інтелекту», щоб машини могли по-справжньому розуміти та конструювати 3D-фізичний світ. (Синопсис: Звіт про технологію блокбастера колишнього партнера a16z: Як штучний інтелект пожирає світ? (Передісторія додана: Бріджвотер Даліо: Ще занадто рано продавати акції штучного інтелекту!) Тому що «голка, що проколює міхур» ще не зіграла) У той час, коли масштабні мовні моделі захлеснули світ, Фей-Фей Лі, професор Стенфордського університету, відома як «хрещена мати штучного інтелекту», націлилася на наступний рубіж штучного інтелекту: просторовий інтелект. Після відходу з Google Cloud Лі Фейфей заснував гучний стартап World Labs і запустив перший продукт світової моделі Marble. У цьому детальному інтерв'ю для Eye on AI Лі Фейфей детально пояснює, чому штучний інтелект повинен не лише розуміти слова, але й мати здатність «бачити», «сприймати» та «будувати» 3D-світ. Це інтерв'ю торкається низки ключових тем, зокрема: За межами мови: чому людські знання не можуть бути повністю охоплені словами, а штучний інтелект потребує мультимодального навчання? Технічна розшифровка: Як модель «RTFM» від World Labs може створювати геометрично стабільні 3D-світи лише за допомогою одного графічного процесора? Наукова думка: У чому схожість та відмінність між методологією Лі Фейфея та концепцією моделі світу Янна Лекуна, головного наукового співробітника Meta з питань штучного інтелекту? Перспективи на майбутнє: коли штучний інтелект по-справжньому зрозуміє закони фізики і навіть продемонструє креативність наукових досліджень? Пропонуємо вашій увазі повний китайський переклад цієї чудової розмови. Ведучий: Я не хочу витрачати надто багато часу на розмови про Marble — вашу нову модель, яка створює послідовний і стійкий 3D-світ, що рухає глядача крізь нього, хоча він справді чудовий. Я хочу дізнатися більше про те, чому ви зосереджуєтеся на «моделях світу» та «просторовому інтелекті»? Чому це необхідно для виходу за рамки вивчення мови? І чим ваш метод відрізняється від методу Янна Лекуна? Перш за все, чи можете ви розповісти про те, чи є модель світу похідною від ваших досліджень в області Ambient Intelligence, чи це паралельний дослідницький трек? Фейфей Лі: Робота в галузі просторового інтелекту, про яку я думаю останні кілька років, насправді є продовженням усієї моєї кар'єри, зосередженої на комп'ютерному зорі та візуальному інтелекті. Я наголошую на «космосі», тому що наша технологія просунулася настільки, що її складність і глибина вже не обмежуються переглядом картинок чи розумінням простих фільмів. Він глибоко сприймається, просторовий і пов'язаний з робототехнікою, втіленим штучним інтелектом і штучним інтелектом навколишнього середовища. Отже, з цієї точки зору, це дійсно продовження моєї кар'єри в галузі комп'ютерного зору та штучного інтелекту. Ведучий: Я також деякий час говорив про важливість просторового інтелекту в цьому подкасті. Мовні моделі вчаться на людських знаннях, закодованих у словах, але це лише частина людських знань. Як ви та багато інших зазначили, люди часто вчаться, взаємодіючи зі світом без мови. Отже, це важливо, і хоча нинішні LLM дивовижні, якщо ми хочемо вийти за їх межі, нам потрібно розробляти моделі, які сприймають світ більш безпосередньо та вчаться безпосередньо з нього. Ваш підхід — звичайно ж, мармур є прикладом — полягає в тому, щоб взяти внутрішні репрезентації, вивчені моделлю, і використати ці репрезентації для створення зовнішньої візуальної реальності. Підхід Лекуна, з іншого боку, будує внутрішні уявлення на основі безпосереднього досвіду або відеовходу, дозволяючи моделі вивчати такі речі, як закони фізики руху. Чи є між ними паралельний зв'язок? Ці два підходи доповнюють або перетинаються? Фейфей Лі: Перш за все, я не протиставляю себе Янну, тому що я думаю, що ми обидва знаходимося в академічному спектрі, що веде до просторового інтелекту та моделей світу. Можливо, ви читали мою недавню статтю «Маніфест просторового інтелекту», в якій я чітко висловив це. Я насправді вважаю, що якщо ми хочемо врешті-решт розглянути універсальну, всемогутню модель світу, то може знадобитися як «неявна репрезентація», так і, зрештою, певна ступінь «явної репрезентації» — особливо на рівні виходу. Кожен з них відіграє свою роль. Наприклад, поточна модель світу World Labs, Marble, явно виводить 3D-зображення, але всередині моделі є неявні представлення на додачу до явного виведення. Чесно кажучи, я думаю, що в кінцевому підсумку нам потрібно і те, і інше. Що стосується модальностей введення, то так, дуже важливо вчитися з фільму. Весь світ - це вхідні дані, що складаються з великої кількості послідовних кадрів, але для агента або просто тварини світ - це не просто пасивний погляд. Він також включає рух, взаємодію, тактильний досвід, звуки, запахи та втілені досвіди, такі як фізична сила та температура. Тому я думаю, що це глибокий мультимодальний. Звичайно, Marble як модель — це лише перший крок, але в нашій технічній статті, яку ми опублікували кілька днів тому, ми чітко дали зрозуміти, що вважаємо, що мультимодальність — це одночасно і парадигма навчання, і парадигма введення. З цього приводу було багато академічних дискусій, що також свідчить про ранній ажіотаж у цій галузі. Тому я б не сказав, що ми повністю вивчили точну архітектуру та представлення моделі. Модератор: У вашій моделі світу вхідними даними є переважно відео, а потім модель будує внутрішнє представлення світу? Лі Фейфей: Не зовсім. Якщо ви знайомі з нашою моделлю світу, Marble, її введення насправді дуже модальне. Ви можете використовувати звичайний текст, одне або кілька зображень, фільми або ввести приблизний 3D-макет, наприклад квадрати або воксельні вокселі. Отже, це мультимодальність, і ми продовжуватимемо поглиблювати її в міру нашого розвитку. Інтерв'юер: Окрім того, що це чудовий продукт з безліччю застосувань, чи є у вас амбіції побудувати систему – як я вже сказав, вхідні дані – фільм, яка вчиться на безпосередньому досвіді? Це навчання за допомогою відео чи інших способів, а не за допомогою другорядних засобів, таких як текст? Фейфей Лі: Так, я думаю, що модель світу полягає у вивченні світу, а світ дуже мультимодальний. Незалежно від того, чи це машина, чи тварина, ми мультисенсорні. Навчання відбувається за допомогою сприйняття, а сприйняття має різні модальності. Однією з таких форм є слова. Це також відрізняє нас від тварин, тому що більшість тварин не вчаться за допомогою складної мови, але люди вчаться. Однак сьогоднішня модель світу штучного інтелекту навчається з великої кількості вхідних даних мови та інших модальностей, але вона не обмежується лише мовою як каналом. Модератор: Одним з обмежень LLM є те, що параметри моделі фіксуються після навчання, а модель не навчається безперервно. Незважаючи на те, що існує певний рівень навчання в перевірці висновків, чи це те, що ви намагаєтеся вирішити у своїй моделі світу? Тому що зрозуміло, що модель світу повинна мати можливість безперервно вчитися, коли стикається з новим середовищем. Лі Фейфей: Так…