Отсканируйте, чтобы загрузить приложение Gate
qrCode
Больше вариантов загрузки
Не напоминай мне больше сегодня.

Ли Фэйфэй говорит о следующем шаге LLM: ИИ должен обладать «пространственным интеллектом», чтобы понять реальный мир. Как Marble это реализует?

Ли Фэйфэй, основатель World Labs и известная как «крестная мать ИИ», дала интервью, чтобы обсудить необходимость выхода ИИ за рамки языка и развития «пространственного интеллекта», чтобы машины могли по-настоящему понимать и конструировать трехмерный физический мир. (Синопсис: Отчет о технологиях блокбастера бывшего партнера a16z: Как ИИ пожирает мир? (Предыстория добавлена: Бриджуотер Далио: Еще слишком рано продавать акции ИИ!) Потому что «игла, которая прокалывает пузырь» еще не сыграла) В то время, когда масштабные языковые модели охватывают мир, Фей-Фей Ли, профессор Стэнфордского университета, известный как «крестная мать ИИ», нацелился на следующий рубеж искусственного интеллекта: пространственный интеллект. После ухода из Google Cloud Ли Фэйфэй основал известный стартап World Labs и запустил первый в мире модельный продукт Marble. В этом подробном интервью Eye on AI Ли Фэйфэй подробно объясняет, почему ИИ должен не только понимать слова, но и обладать способностью «видеть», «воспринимать» и «строить» 3D-мир. В этом интервью затрагивается ряд ключевых тем, в том числе: За пределами языка: почему человеческие знания не могут быть полностью переданы словами, а ИИ нуждается в мультимодальном обучении? Техническая расшифровка: Как модель “RTFM” от World Labs может создавать геометрически согласованные 3D-миры с помощью всего одного графического процессора? Академическое мнение: В чем сходства и различия между методологией Ли Фэйфэя и концепцией мировой модели Яна Лекуня, главного ученого Meta в области искусственного интеллекта? Перспективы на будущее: когда ИИ по-настоящему поймет законы физики и хотя бы продемонстрирует творческий подход к научным исследованиям? Вот полный перевод этого замечательного разговора на китайский язык. Модератор: Я не хочу тратить слишком много времени на разговоры о Marble — вашей новой модели, которая генерирует последовательный и устойчивый 3D-мир, который перемещает зрителя по нему, хотя она действительно великолепна. Я хочу узнать больше о том, почему вы фокусируетесь на «моделях мира» и «пространственном интеллекте»? Почему это необходимо для того, чтобы выйти за рамки изучения языка? И чем ваш метод отличается от метода Яна Лекуна? Прежде всего, можете ли вы рассказать о том, является ли модель мира производной от ваших исследований в области Ambient Intelligence, или это параллельный исследовательский трек? Фэйфэй Ли: Работа в области пространственного интеллекта, о которой я думал последние несколько лет, на самом деле является продолжением всей моей карьеры, сосредоточенной на компьютерном зрении и визуальном интеллекте. Я подчеркиваю «пространство», потому что наши технологии продвинулись до такой степени, что их сложность и глубина больше не ограничиваются просмотром картинок или пониманием простых фильмов. Он воспринимает глубину, пространственный и связан с робототехникой, воплощенным ИИ и ИИ окружающей среды. Так что с этой точки зрения это действительно продолжение моей карьеры в области компьютерного зрения и искусственного интеллекта. Модератор: Я также некоторое время говорил о важности пространственного интеллекта в этом подкасте. Языковые модели учатся на человеческих знаниях, закодированных в словах, но это лишь малая часть человеческих знаний. Как вы и многие другие отметили, люди часто учатся, взаимодействуя с миром без языка. Так что это важно, и хотя нынешние LLM потрясающие, если мы хотим выйти за их рамки, нам нужно разработать модели, которые воспринимают мир более непосредственно и учатся непосредственно на нем. Ваш подход — конечно, Мрамор является примером — заключается в том, чтобы взять внутренние представления, полученные моделью, и использовать эти представления для создания внешней визуальной реальности. Подход Лекуна, с другой стороны, строит внутренние представления на основе непосредственного опыта или видеоввода, что позволяет модели изучать такие вещи, как законы физики движения. Есть ли параллельная связь между ними? Являются ли эти два подхода взаимодополняющими или перекрывающимися? Фэйфэй Ли: Прежде всего, я не противопоставляю себя Янну, потому что я думаю, что мы оба находимся в академическом спектре, ведущем к пространственному интеллекту и моделям мира. Возможно, вы читали мою недавнюю длинную статью «Манифест пространственного интеллекта», в которой я ясно дал это понять. На самом деле я думаю, что если мы хотим в конечном итоге рассмотреть универсальную, всемогущую модель мира, то может потребоваться как «имплицитная репрезентация», так и, в конечном счете, некоторая степень «эксплицитной репрезентации», особенно на выходном уровне. Каждый из них играет свою роль. Например, текущая модель мира World Labs, Marble, явно выводит 3D-представления, но внутри модели есть неявные представления в дополнение к явному выводу. Честно говоря, я думаю, что в конечном итоге нам нужно и то, и другое. Что касается способов ввода, да, очень важно учиться на фильме. Весь мир — это входные данные, составленные из большого количества последовательных кадров, но для агента или просто животного мир — это не просто пассивный взгляд. Он также включает в себя движение, взаимодействие, тактильные ощущения, звуки, запахи и воплощенные переживания, такие как физическая сила и температура. Так что я думаю, что это глубокая мультимодальность. Конечно, Marble как модель — это только первый шаг, но в нашей технической статье, которую мы опубликовали несколько дней назад, мы ясно дали понять, что считаем, что мультимодальность — это как парадигма обучения, так и парадигма ввода. Было много академических дискуссий по этому поводу, что также показывает ранний ажиотаж в этой области. Так что я бы не сказал, что мы полностью изучили точную архитектуру и представление модели. Модератор: В вашей модели мира входом в основном является видео, а затем модель строит внутреннее представление о мире? Ли Фэйфэй: Не совсем. Если вы знакомы с нашей моделью мира, Marble, то увидите, что ее входные данные на самом деле очень модальны. Вы можете использовать обычный текст, одно или несколько изображений, фильмы или ввести грубую 3D-схему, такую как квадраты или воксели вокселей. Так что это мультимодальная система, и мы будем продолжать углублять ее по мере нашего развития. Корреспондент: Помимо того, что это отличный продукт с множеством применений, стремитесь ли вы создать систему – как я уже сказал, входные данные – это фильм – систему, которая учится на непосредственном опыте? Это обучение с помощью видео или других методов, а не с помощью вторичных средств, таких как текст? Фэйфэй Ли: Да, я думаю, что модель мира основана на изучении мира, а мир очень мультимодален. Будь то машина или животное, мы мультисенсорны. Обучение происходит через восприятие, а восприятие имеет различные модальности. Слова являются одной из таких форм. Это также то, что отличает нас от животных, потому что большинство животных не учатся на сложном языке, в отличие от людей. Тем не менее, сегодняшняя модель мира ИИ обучается на большом количестве языковых входных данных и других модальностях, но она не ограничивается только языком как каналом. Модератор: Одним из ограничений LLM является то, что параметры модели фиксируются после обучения, и модель не обучается непрерывно. Несмотря на то, что тестирование вывода требует некоторого уровня обучения, это то, что вы пытаетесь решить в своей модели мира? Потому что само собой разумеется, что модель мира должна быть способна непрерывно обучаться при столкновении с новой средой. Ли Фэйфэй: Да…

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
0/400
Нет комментариев
  • Горячее на Gate FunПодробнее
  • РК:$3.37KДержатели:2
    0.22%
  • РК:$3.37KДержатели:2
    0.05%
  • РК:$3.34KДержатели:1
    0.00%
  • РК:$3.35KДержатели:1
    0.24%
  • РК:$3.39KДержатели:2
    0.10%
  • Закрепить