Li Feifei berbicara tentang langkah selanjutnya untuk LLM: AI harus memiliki "kecerdasan ruang" untuk memahami dunia nyata, bagaimana Marble mewujudkannya?
Li Feifei, pendiri World Labs dan dikenal sebagai “Ibu baptis AI”, diwawancarai untuk membahas perlunya AI melampaui bahasa dan mengembangkan “kecerdasan spasial” sehingga mesin dapat benar-benar memahami dan membangun dunia fisik 3D. (Sinopsis: a16z Laporan Teknologi Blockbuster Mantan Mitra: Bagaimana AI memakan dunia? (Latar belakang ditambahkan: Bridgewater Dalio: Masih terlalu dini untuk menjual saham AI!) Karena “jarum yang menembus gelembung” belum bermain) Pada saat model bahasa skala besar menyapu dunia, Fei-Fei Li, seorang profesor di Universitas Stanford yang dikenal sebagai “ibu baptis AI”, telah mengarahkan pandangannya pada perbatasan kecerdasan buatan berikutnya: kecerdasan spasial. Setelah meninggalkan Google Cloud, Li Feifei mendirikan startup terkenal World Labs dan meluncurkan produk model dunia pertama, Marble. Dalam wawancara mendalam dengan Eye on AI ini, Li Feifei menguraikan mengapa AI tidak hanya harus memahami kata-kata, tetapi harus memiliki kemampuan untuk “melihat”, “memahami”, dan “membangun” dunia 3D. Wawancara ini menyentuh sejumlah topik inti, termasuk: Melampaui Bahasa: Mengapa pengetahuan manusia tidak dapat sepenuhnya ditangkap oleh kata-kata, dan AI membutuhkan pembelajaran multimodal? Dekripsi teknis: Bagaimana model “RTFM” World Labs menghasilkan dunia 3D yang konsisten secara geometris hanya dengan satu GPU? Opini Akademis: Apa persamaan dan perbedaan antara metodologi Li Feifei dan konsep model dunia Yann LeCun, kepala ilmuwan AI Meta? Prospek masa depan: Kapan AI akan benar-benar memahami hukum fisika dan bahkan menunjukkan kreativitas penyelidikan ilmiah? Berikut adalah terjemahan bahasa Mandarin lengkap dari percakapan yang luar biasa ini. Moderator: Saya tidak ingin menghabiskan terlalu banyak waktu untuk berbicara tentang Marble—model baru Anda yang menghasilkan dunia 3D yang konsisten dan persisten yang menggerakkan pemirsa melaluinya, meskipun itu sangat bagus. Saya ingin mengeksplorasi lebih lanjut tentang mengapa Anda fokus pada “model dunia” dan “kecerdasan spasial”? Mengapa ini diperlukan untuk melampaui pembelajaran bahasa? Dan apa bedanya metode Anda dengan Yann LeCun? Pertama-tama, dapatkah Anda berbicara tentang apakah model dunia berasal dari penelitian Anda di Ambient Intelligence, atau apakah itu jalur penelitian paralel? Feifei Li: Pekerjaan kecerdasan spasial yang telah saya pikirkan selama beberapa tahun terakhir benar-benar merupakan kelanjutan dari seluruh karir saya yang berfokus pada visi komputer dan kecerdasan visual. Saya menekankan “ruang” karena teknologi kita telah maju ke titik di mana kompleksitas dan kedalamannya tidak lagi terbatas pada melihat gambar atau memahami film sederhana. Ini perseptif kedalaman, spasial, dan terhubung dengan robotika, AI yang diwujudkan, dan AI lingkungan. Jadi dari sudut pandang itu, ini benar-benar kelanjutan dari karir saya di visi komputer dan AI. Moderator: Saya juga berbicara tentang pentingnya kecerdasan spasial di podcast ini untuk sementara waktu. Model bahasa belajar dari pengetahuan manusia yang dikodekan dalam kata-kata, tetapi itu hanya sebagian kecil dari pengetahuan manusia. Seperti yang telah ditunjukkan oleh Anda dan banyak orang lain, manusia sering belajar dengan berinteraksi dengan dunia tanpa bahasa. Jadi itu penting, dan meskipun LLM saat ini luar biasa, jika kita ingin melampaui mereka, kita perlu mengembangkan model yang mengalami dunia secara lebih langsung dan belajar langsung darinya. Pendekatan Anda—tentu saja, Marble adalah contohnya—adalah mengambil representasi internal yang dipelajari oleh model dan menggunakan representasi tersebut untuk menciptakan realitas visual eksternal. Pendekatan LeCun, di sisi lain, membangun representasi internal dari pengalaman langsung atau input video, memungkinkan model untuk mempelajari hal-hal seperti hukum fisika gerak. Apakah ada hubungan paralel antara keduanya? Apakah kedua pendekatan tersebut saling melengkapi atau tumpang tindih? Feifei Li: Pertama-tama, saya tidak benar-benar mengadu domba saya dengan Yann, karena saya pikir kami berdua berada di spektrum akademis yang mengarah pada kecerdasan spasial dan model dunia. Anda mungkin telah membaca artikel panjang saya baru-baru ini, “Manifesto Kecerdasan Spasial,” di mana saya menjelaskannya. Saya benar-benar berpikir bahwa jika kita pada akhirnya mempertimbangkan model dunia yang universal dan mahakuasa, maka baik “representasi implisit” dan akhirnya beberapa tingkat “representasi eksplisit”—terutama pada tingkat keluaran—mungkin diperlukan. Mereka masing-masing memainkan peran yang berbeda. Misalnya, model dunia World Labs saat ini, Marble, secara eksplisit mengeluarkan representasi 3D, tetapi di dalam model, ada representasi implisit selain output eksplisit. Sejujurnya, saya pikir pada akhirnya kita membutuhkan keduanya. Adapun modalitas input, ya, sangat penting untuk belajar dari film. Seluruh dunia adalah input yang terdiri dari sejumlah besar bingkai berturut-turut, tetapi untuk agen atau hanya hewan, dunia bukan hanya pandangan pasif. Ini juga mencakup gerakan, interaksi, pengalaman sentuhan, suara, bau, dan pengalaman yang diwujudkan seperti kekuatan fisik dan suhu. Jadi saya pikir ini multimodal yang mendalam. Tentu saja, Marble sebagai model hanyalah langkah pertama, tetapi dalam artikel teknis kami yang kami terbitkan beberapa hari yang lalu, kami menjelaskan bahwa kami percaya bahwa multimodalitas adalah paradigma pembelajaran dan paradigma input. Ada banyak diskusi akademis tentang hal ini, yang juga menunjukkan kegembiraan awal di lapangan. Jadi saya tidak akan mengatakan bahwa kami telah sepenuhnya mengeksplorasi arsitektur dan representasi model yang tepat. Moderator: Dalam model dunia Anda, masukannya sebagian besar adalah video, dan kemudian model membangun representasi internal dunia? Li Feifei: Tidak persis. Jika Anda pernah mengalami model dunia kami, Marble, masukannya sebenarnya sangat modal. Anda dapat menggunakan teks biasa, satu atau beberapa gambar, film, atau Anda dapat memasukkan tata letak 3D kasar seperti kotak atau voxel Voxel. Jadi ini multimodal, dan kami akan terus memperdalamnya saat kami berkembang. Pewawancara: Selain menjadi produk hebat dengan banyak aplikasi, apakah ambisi Anda untuk membangun sistem – seperti yang saya katakan masukannya adalah film – yang belajar dari pengalaman langsung? Apakah itu belajar melalui video atau modalitas lain, bukan melalui media sekunder seperti teks? Feifei Li: Ya, saya pikir model dunia adalah tentang belajar tentang dunia, dan dunia sangat multimodal. Apakah itu mesin atau hewan, kita multisensorik. Pembelajaran terjadi melalui persepsi, dan persepsi memiliki modalitas yang berbeda. Kata-kata adalah salah satu bentuk itu. Ini juga yang membedakan kita dari hewan, karena kebanyakan hewan tidak belajar melalui bahasa yang kompleks, tetapi manusia melakukannya. Namun, model dunia AI saat ini belajar dari sejumlah besar input bahasa dan modalitas lainnya, tetapi tidak terbatas hanya pada bahasa sebagai saluran. Moderator: Salah satu keterbatasan LLM adalah parameter model diperbaiki setelah pelatihan, dan model tidak terus belajar. Meskipun ada beberapa tingkat pembelajaran dalam menguji inferensi, apakah ini yang Anda coba selesaikan dalam model dunia Anda? Karena masuk akal bahwa model dunia harus dapat terus belajar ketika menghadapi lingkungan baru. Li Feifei: Ya …
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
Li Feifei berbicara tentang langkah selanjutnya untuk LLM: AI harus memiliki "kecerdasan ruang" untuk memahami dunia nyata, bagaimana Marble mewujudkannya?
Li Feifei, pendiri World Labs dan dikenal sebagai “Ibu baptis AI”, diwawancarai untuk membahas perlunya AI melampaui bahasa dan mengembangkan “kecerdasan spasial” sehingga mesin dapat benar-benar memahami dan membangun dunia fisik 3D. (Sinopsis: a16z Laporan Teknologi Blockbuster Mantan Mitra: Bagaimana AI memakan dunia? (Latar belakang ditambahkan: Bridgewater Dalio: Masih terlalu dini untuk menjual saham AI!) Karena “jarum yang menembus gelembung” belum bermain) Pada saat model bahasa skala besar menyapu dunia, Fei-Fei Li, seorang profesor di Universitas Stanford yang dikenal sebagai “ibu baptis AI”, telah mengarahkan pandangannya pada perbatasan kecerdasan buatan berikutnya: kecerdasan spasial. Setelah meninggalkan Google Cloud, Li Feifei mendirikan startup terkenal World Labs dan meluncurkan produk model dunia pertama, Marble. Dalam wawancara mendalam dengan Eye on AI ini, Li Feifei menguraikan mengapa AI tidak hanya harus memahami kata-kata, tetapi harus memiliki kemampuan untuk “melihat”, “memahami”, dan “membangun” dunia 3D. Wawancara ini menyentuh sejumlah topik inti, termasuk: Melampaui Bahasa: Mengapa pengetahuan manusia tidak dapat sepenuhnya ditangkap oleh kata-kata, dan AI membutuhkan pembelajaran multimodal? Dekripsi teknis: Bagaimana model “RTFM” World Labs menghasilkan dunia 3D yang konsisten secara geometris hanya dengan satu GPU? Opini Akademis: Apa persamaan dan perbedaan antara metodologi Li Feifei dan konsep model dunia Yann LeCun, kepala ilmuwan AI Meta? Prospek masa depan: Kapan AI akan benar-benar memahami hukum fisika dan bahkan menunjukkan kreativitas penyelidikan ilmiah? Berikut adalah terjemahan bahasa Mandarin lengkap dari percakapan yang luar biasa ini. Moderator: Saya tidak ingin menghabiskan terlalu banyak waktu untuk berbicara tentang Marble—model baru Anda yang menghasilkan dunia 3D yang konsisten dan persisten yang menggerakkan pemirsa melaluinya, meskipun itu sangat bagus. Saya ingin mengeksplorasi lebih lanjut tentang mengapa Anda fokus pada “model dunia” dan “kecerdasan spasial”? Mengapa ini diperlukan untuk melampaui pembelajaran bahasa? Dan apa bedanya metode Anda dengan Yann LeCun? Pertama-tama, dapatkah Anda berbicara tentang apakah model dunia berasal dari penelitian Anda di Ambient Intelligence, atau apakah itu jalur penelitian paralel? Feifei Li: Pekerjaan kecerdasan spasial yang telah saya pikirkan selama beberapa tahun terakhir benar-benar merupakan kelanjutan dari seluruh karir saya yang berfokus pada visi komputer dan kecerdasan visual. Saya menekankan “ruang” karena teknologi kita telah maju ke titik di mana kompleksitas dan kedalamannya tidak lagi terbatas pada melihat gambar atau memahami film sederhana. Ini perseptif kedalaman, spasial, dan terhubung dengan robotika, AI yang diwujudkan, dan AI lingkungan. Jadi dari sudut pandang itu, ini benar-benar kelanjutan dari karir saya di visi komputer dan AI. Moderator: Saya juga berbicara tentang pentingnya kecerdasan spasial di podcast ini untuk sementara waktu. Model bahasa belajar dari pengetahuan manusia yang dikodekan dalam kata-kata, tetapi itu hanya sebagian kecil dari pengetahuan manusia. Seperti yang telah ditunjukkan oleh Anda dan banyak orang lain, manusia sering belajar dengan berinteraksi dengan dunia tanpa bahasa. Jadi itu penting, dan meskipun LLM saat ini luar biasa, jika kita ingin melampaui mereka, kita perlu mengembangkan model yang mengalami dunia secara lebih langsung dan belajar langsung darinya. Pendekatan Anda—tentu saja, Marble adalah contohnya—adalah mengambil representasi internal yang dipelajari oleh model dan menggunakan representasi tersebut untuk menciptakan realitas visual eksternal. Pendekatan LeCun, di sisi lain, membangun representasi internal dari pengalaman langsung atau input video, memungkinkan model untuk mempelajari hal-hal seperti hukum fisika gerak. Apakah ada hubungan paralel antara keduanya? Apakah kedua pendekatan tersebut saling melengkapi atau tumpang tindih? Feifei Li: Pertama-tama, saya tidak benar-benar mengadu domba saya dengan Yann, karena saya pikir kami berdua berada di spektrum akademis yang mengarah pada kecerdasan spasial dan model dunia. Anda mungkin telah membaca artikel panjang saya baru-baru ini, “Manifesto Kecerdasan Spasial,” di mana saya menjelaskannya. Saya benar-benar berpikir bahwa jika kita pada akhirnya mempertimbangkan model dunia yang universal dan mahakuasa, maka baik “representasi implisit” dan akhirnya beberapa tingkat “representasi eksplisit”—terutama pada tingkat keluaran—mungkin diperlukan. Mereka masing-masing memainkan peran yang berbeda. Misalnya, model dunia World Labs saat ini, Marble, secara eksplisit mengeluarkan representasi 3D, tetapi di dalam model, ada representasi implisit selain output eksplisit. Sejujurnya, saya pikir pada akhirnya kita membutuhkan keduanya. Adapun modalitas input, ya, sangat penting untuk belajar dari film. Seluruh dunia adalah input yang terdiri dari sejumlah besar bingkai berturut-turut, tetapi untuk agen atau hanya hewan, dunia bukan hanya pandangan pasif. Ini juga mencakup gerakan, interaksi, pengalaman sentuhan, suara, bau, dan pengalaman yang diwujudkan seperti kekuatan fisik dan suhu. Jadi saya pikir ini multimodal yang mendalam. Tentu saja, Marble sebagai model hanyalah langkah pertama, tetapi dalam artikel teknis kami yang kami terbitkan beberapa hari yang lalu, kami menjelaskan bahwa kami percaya bahwa multimodalitas adalah paradigma pembelajaran dan paradigma input. Ada banyak diskusi akademis tentang hal ini, yang juga menunjukkan kegembiraan awal di lapangan. Jadi saya tidak akan mengatakan bahwa kami telah sepenuhnya mengeksplorasi arsitektur dan representasi model yang tepat. Moderator: Dalam model dunia Anda, masukannya sebagian besar adalah video, dan kemudian model membangun representasi internal dunia? Li Feifei: Tidak persis. Jika Anda pernah mengalami model dunia kami, Marble, masukannya sebenarnya sangat modal. Anda dapat menggunakan teks biasa, satu atau beberapa gambar, film, atau Anda dapat memasukkan tata letak 3D kasar seperti kotak atau voxel Voxel. Jadi ini multimodal, dan kami akan terus memperdalamnya saat kami berkembang. Pewawancara: Selain menjadi produk hebat dengan banyak aplikasi, apakah ambisi Anda untuk membangun sistem – seperti yang saya katakan masukannya adalah film – yang belajar dari pengalaman langsung? Apakah itu belajar melalui video atau modalitas lain, bukan melalui media sekunder seperti teks? Feifei Li: Ya, saya pikir model dunia adalah tentang belajar tentang dunia, dan dunia sangat multimodal. Apakah itu mesin atau hewan, kita multisensorik. Pembelajaran terjadi melalui persepsi, dan persepsi memiliki modalitas yang berbeda. Kata-kata adalah salah satu bentuk itu. Ini juga yang membedakan kita dari hewan, karena kebanyakan hewan tidak belajar melalui bahasa yang kompleks, tetapi manusia melakukannya. Namun, model dunia AI saat ini belajar dari sejumlah besar input bahasa dan modalitas lainnya, tetapi tidak terbatas hanya pada bahasa sebagai saluran. Moderator: Salah satu keterbatasan LLM adalah parameter model diperbaiki setelah pelatihan, dan model tidak terus belajar. Meskipun ada beberapa tingkat pembelajaran dalam menguji inferensi, apakah ini yang Anda coba selesaikan dalam model dunia Anda? Karena masuk akal bahwa model dunia harus dapat terus belajar ketika menghadapi lingkungan baru. Li Feifei: Ya …