Li Feifei, LLM'nin bir sonraki adımını konuşuyor: AI'nın gerçek dünyayı anlaması için "uzay zekasına" sahip olması gerekiyor. Marble bunu nasıl gerçekleştiriyor?
World Labs'ın kurucusu ve “Yapay Zekanın Vaftiz Annesi” olarak bilinen Li Feifei, yapay zekanın dilin ötesine geçmesi ve makinelerin 3B fiziksel dünyayı gerçekten anlayabilmesi ve inşa edebilmesi için “uzamsal zeka” geliştirmesi ihtiyacını tartışmak üzere röportaj yaptı. (Özet: a16z Eski Ortağının Gişe Rekorları Kıran Teknoloji Raporu: Yapay Zeka Dünyayı Nasıl Yiyor? (Arka plan eklendi: Bridgewater Dalio: AI hisselerini satmak için henüz çok erken!) Çünkü “balonu delen iğne” henüz oynamadı) Büyük ölçekli dil modellerinin dünyayı kasıp kavurduğu bir zamanda, Stanford Üniversitesi'nde “yapay zekanın vaftiz annesi” olarak bilinen profesör Fei-Fei Li, gözünü yapay zekanın bir sonraki sınırına dikti: uzamsal zeka. Li Feifei, Google Cloud'dan ayrıldıktan sonra yüksek profilli bir girişim olan World Labs'ı kurdu ve ilk dünya modeli ürünü olan Marble'ı piyasaya sürdü. Eye on AI ile yapılan bu derinlemesine röportajda Li Feifei, AI'nın neden sadece kelimeleri anlaması gerektiğini, aynı zamanda 3D dünyayı “görme”, “algılama” ve “inşa etme” yeteneğine sahip olması gerektiğini detaylandırıyor. Bu röportaj, aşağıdakiler de dahil olmak üzere bir dizi temel konuya değiniyor: Dilin Ötesinde: İnsan bilgisi neden kelimelerle tam olarak yakalanamıyor ve yapay zekanın çok modlu öğrenmeye ihtiyacı var? Teknik şifre çözme: World Labs'ın “RTFM” modeli, tek bir GPU ile geometrik olarak tutarlı 3D dünyaları nasıl üretebilir? Akademik Görüş: Li Feifei'nin metodolojisi ile Meta'nın baş yapay zeka bilimcisi Yann LeCun'un dünya modeli konsepti arasındaki benzerlikler ve farklılıklar nelerdir? Geleceğe bakış: Yapay zeka ne zaman fizik yasalarını gerçekten anlayacak ve hatta bilimsel araştırmanın yaratıcılığını gösterecek? İşte bu harika sohbetin tam Çince çevirisi. Moderatör: Mermer hakkında konuşmak için çok fazla zaman harcamak istemiyorum - izleyiciyi içinde hareket ettiren tutarlı ve kalıcı bir 3D dünya yaratan yeni modeliniz, gerçekten harika olmasına rağmen. Neden “dünya modelleri” ve “uzamsal zeka” üzerine odaklandığınız hakkında daha fazla bilgi edinmek istiyorum. Dil öğreniminin ötesine geçmek için bu neden gereklidir? Ve sizin yönteminizin Yann LeCun'unkinden farkı nedir? Öncelikle dünya modelinin Ambient Intelligence (Ortam Zekası) alanındaki araştırmanızdan mı türetildiğinden yoksa paralel bir araştırma parkuru mu olduğundan bahsedebilir misiniz? Feifei Li: Son birkaç yıldır üzerinde düşündüğüm uzamsal zeka çalışması, bilgisayarla görme ve görsel zekaya odaklanan tüm kariyerimin bir devamı niteliğinde. "Uzay"ı vurguluyorum çünkü teknolojimiz öyle bir noktaya geldi ki, karmaşıklığı ve derinliği artık resimlere bakmak veya basit filmleri anlamakla sınırlı değil. Derinlik algısı, mekansal ve robotik, somutlaşmış yapay zeka ve çevresel yapay zeka ile bağlantılıdır. Bu açıdan bakıldığında, bu gerçekten bilgisayarla görme ve yapay zeka alanındaki kariyerimin bir devamı. Moderatör: Ben de bir süre bu podcast'te uzamsal zekanın öneminden bahsettim. Dil modelleri, kelimelerle kodlanmış insan bilgisinden öğrenir, ancak bu, insan bilgisinin yalnızca bir kısmıdır. Sizin ve diğer pek çok kişinin işaret ettiği gibi, insanlar genellikle dil olmadan dünyayla etkileşime girerek öğrenirler. Dolayısıyla bu önemli ve mevcut LLM'ler harika olsa da, bunların ötesine geçmek istiyorsak, dünyayı daha doğrudan deneyimleyen ve doğrudan ondan öğrenen modeller geliştirmemiz gerekiyor. Yaklaşımınız -tabii ki Mermer bir örnektir- model tarafından öğrenilen iç temsilleri almak ve bu temsilleri dışsal bir görsel gerçeklik yaratmak için kullanmaktır. Öte yandan LeCun'un yaklaşımı, doğrudan deneyimden veya video girdisinden iç temsiller oluşturarak modelin hareket fiziği yasaları gibi şeyleri öğrenmesine olanak tanır. İkisi arasında paralel bir ilişki var mı? İki yaklaşım birbirini tamamlıyor mu yoksa örtüşüyor mu? Feifei Li: Her şeyden önce, aslında kendimi Yann'la karşı karşıya getirmiyorum, çünkü bence ikimiz de uzamsal zeka ve dünya modellerine giden akademik spektrumdayız. Son zamanlarda yazdığım “Mekansal Zeka Manifestosu” adlı makalemi okumuş olabilirsiniz. Aslında, eninde sonunda evrensel, her şeye gücü yeten bir dünya modelini düşüneceksek, o zaman hem “örtük temsile” hem de nihayetinde bir dereceye kadar “açık temsile” - özellikle çıktı düzeyinde - ihtiyaç duyulabileceğini düşünüyorum. Her biri farklı bir rol oynar. Örneğin, World Labs'ın mevcut dünya modeli Marble, açıkça 3B temsiller çıkarır, ancak modelin içinde açık çıktıya ek olarak örtük temsiller de vardır. Dürüst olmak gerekirse, nihayetinde ikisine de ihtiyacımız olduğunu düşünüyorum. Girdi modalitelerine gelince, evet, filmden öğrenmek çok önemli. Tüm dünya, çok sayıda ardışık kareden oluşan bir girdidir, ancak bir ajan veya sadece bir hayvan için dünya sadece pasif bir görünüm değildir. Aynı zamanda hareket, etkileşim, dokunsal deneyimler, sesler, kokular ve fiziksel kuvvet ve sıcaklık gibi somutlaşmış deneyimleri de içerir. Bu yüzden derin multimodal olduğunu düşünüyorum. Tabii ki, bir model olarak Mermer sadece ilk adımdır, ancak birkaç gün önce yayınladığımız teknik makalemizde, multimodalitenin hem bir öğrenme paradigması hem de bir girdi paradigması olduğuna inandığımızı açıkça belirttik. Bu konuda çok fazla akademik tartışma yapıldı ve bu da alandaki erken heyecanı gösteriyor. Bu yüzden tam model mimarisini ve temsilini tam olarak keşfettiğimizi söyleyemem. Moderatör: Sizin dünya modelinizde, girdi çoğunlukla video mu oluyor ve sonra model dünyanın içsel bir temsilini mi oluşturuyor? Li Feifei: Tam olarak değil. Dünya modelimiz Mermer'i deneyimlediyseniz, girişi aslında çok modal. Düz metin, tek veya birden çok görüntü, film kullanabilir veya kareler veya voksel Vokseller gibi kaba bir 3B düzen girebilirsiniz. Yani çok modlu ve geliştikçe bunu derinleştirmeye devam edeceğiz. Görüşmeci: Birçok uygulama ile harika bir ürün olmasının yanı sıra, bir sistem kurma tutkunuz - dediğim gibi girdi bir film - doğrudan deneyimden öğrenen bir sistem mi? Metin gibi ikincil ortamlar yerine video veya diğer yöntemler aracılığıyla mı öğreniyor? Feifei Li: Evet, bence dünya modeli dünya hakkında bilgi edinmekle ilgili ve dünya çok modlu. İster bir makine ister bir hayvan olsun, çok duyusalız. Öğrenme algı yoluyla gerçekleşir ve algının farklı modaliteleri vardır. Kelimeler bu formlardan biridir. Bu aynı zamanda bizi hayvanlardan ayıran şeydir, çünkü çoğu hayvan karmaşık bir dille öğrenmez, ancak insanlar öğrenir. Bununla birlikte, günümüzün yapay zeka dünya modeli, çok sayıda dil girdisinden ve diğer modalitelerden öğrenir, ancak bir kanal olarak yalnızca dil ile sınırlı değildir. Moderatör: LLM'nin sınırlamalarından biri, model parametrelerinin eğitimden sonra sabitlenmesi ve modelin sürekli öğrenmemesidir. Çıkarımı test etmede bir miktar öğrenme olsa da, dünya modelinizde çözmeye çalıştığınız şey bu mu? Çünkü dünya modelinin yeni bir ortamla karşılaştığında sürekli olarak öğrenebilmesi gerektiği mantıklıdır. Li Feifei: Evet…
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
Li Feifei, LLM'nin bir sonraki adımını konuşuyor: AI'nın gerçek dünyayı anlaması için "uzay zekasına" sahip olması gerekiyor. Marble bunu nasıl gerçekleştiriyor?
World Labs'ın kurucusu ve “Yapay Zekanın Vaftiz Annesi” olarak bilinen Li Feifei, yapay zekanın dilin ötesine geçmesi ve makinelerin 3B fiziksel dünyayı gerçekten anlayabilmesi ve inşa edebilmesi için “uzamsal zeka” geliştirmesi ihtiyacını tartışmak üzere röportaj yaptı. (Özet: a16z Eski Ortağının Gişe Rekorları Kıran Teknoloji Raporu: Yapay Zeka Dünyayı Nasıl Yiyor? (Arka plan eklendi: Bridgewater Dalio: AI hisselerini satmak için henüz çok erken!) Çünkü “balonu delen iğne” henüz oynamadı) Büyük ölçekli dil modellerinin dünyayı kasıp kavurduğu bir zamanda, Stanford Üniversitesi'nde “yapay zekanın vaftiz annesi” olarak bilinen profesör Fei-Fei Li, gözünü yapay zekanın bir sonraki sınırına dikti: uzamsal zeka. Li Feifei, Google Cloud'dan ayrıldıktan sonra yüksek profilli bir girişim olan World Labs'ı kurdu ve ilk dünya modeli ürünü olan Marble'ı piyasaya sürdü. Eye on AI ile yapılan bu derinlemesine röportajda Li Feifei, AI'nın neden sadece kelimeleri anlaması gerektiğini, aynı zamanda 3D dünyayı “görme”, “algılama” ve “inşa etme” yeteneğine sahip olması gerektiğini detaylandırıyor. Bu röportaj, aşağıdakiler de dahil olmak üzere bir dizi temel konuya değiniyor: Dilin Ötesinde: İnsan bilgisi neden kelimelerle tam olarak yakalanamıyor ve yapay zekanın çok modlu öğrenmeye ihtiyacı var? Teknik şifre çözme: World Labs'ın “RTFM” modeli, tek bir GPU ile geometrik olarak tutarlı 3D dünyaları nasıl üretebilir? Akademik Görüş: Li Feifei'nin metodolojisi ile Meta'nın baş yapay zeka bilimcisi Yann LeCun'un dünya modeli konsepti arasındaki benzerlikler ve farklılıklar nelerdir? Geleceğe bakış: Yapay zeka ne zaman fizik yasalarını gerçekten anlayacak ve hatta bilimsel araştırmanın yaratıcılığını gösterecek? İşte bu harika sohbetin tam Çince çevirisi. Moderatör: Mermer hakkında konuşmak için çok fazla zaman harcamak istemiyorum - izleyiciyi içinde hareket ettiren tutarlı ve kalıcı bir 3D dünya yaratan yeni modeliniz, gerçekten harika olmasına rağmen. Neden “dünya modelleri” ve “uzamsal zeka” üzerine odaklandığınız hakkında daha fazla bilgi edinmek istiyorum. Dil öğreniminin ötesine geçmek için bu neden gereklidir? Ve sizin yönteminizin Yann LeCun'unkinden farkı nedir? Öncelikle dünya modelinin Ambient Intelligence (Ortam Zekası) alanındaki araştırmanızdan mı türetildiğinden yoksa paralel bir araştırma parkuru mu olduğundan bahsedebilir misiniz? Feifei Li: Son birkaç yıldır üzerinde düşündüğüm uzamsal zeka çalışması, bilgisayarla görme ve görsel zekaya odaklanan tüm kariyerimin bir devamı niteliğinde. "Uzay"ı vurguluyorum çünkü teknolojimiz öyle bir noktaya geldi ki, karmaşıklığı ve derinliği artık resimlere bakmak veya basit filmleri anlamakla sınırlı değil. Derinlik algısı, mekansal ve robotik, somutlaşmış yapay zeka ve çevresel yapay zeka ile bağlantılıdır. Bu açıdan bakıldığında, bu gerçekten bilgisayarla görme ve yapay zeka alanındaki kariyerimin bir devamı. Moderatör: Ben de bir süre bu podcast'te uzamsal zekanın öneminden bahsettim. Dil modelleri, kelimelerle kodlanmış insan bilgisinden öğrenir, ancak bu, insan bilgisinin yalnızca bir kısmıdır. Sizin ve diğer pek çok kişinin işaret ettiği gibi, insanlar genellikle dil olmadan dünyayla etkileşime girerek öğrenirler. Dolayısıyla bu önemli ve mevcut LLM'ler harika olsa da, bunların ötesine geçmek istiyorsak, dünyayı daha doğrudan deneyimleyen ve doğrudan ondan öğrenen modeller geliştirmemiz gerekiyor. Yaklaşımınız -tabii ki Mermer bir örnektir- model tarafından öğrenilen iç temsilleri almak ve bu temsilleri dışsal bir görsel gerçeklik yaratmak için kullanmaktır. Öte yandan LeCun'un yaklaşımı, doğrudan deneyimden veya video girdisinden iç temsiller oluşturarak modelin hareket fiziği yasaları gibi şeyleri öğrenmesine olanak tanır. İkisi arasında paralel bir ilişki var mı? İki yaklaşım birbirini tamamlıyor mu yoksa örtüşüyor mu? Feifei Li: Her şeyden önce, aslında kendimi Yann'la karşı karşıya getirmiyorum, çünkü bence ikimiz de uzamsal zeka ve dünya modellerine giden akademik spektrumdayız. Son zamanlarda yazdığım “Mekansal Zeka Manifestosu” adlı makalemi okumuş olabilirsiniz. Aslında, eninde sonunda evrensel, her şeye gücü yeten bir dünya modelini düşüneceksek, o zaman hem “örtük temsile” hem de nihayetinde bir dereceye kadar “açık temsile” - özellikle çıktı düzeyinde - ihtiyaç duyulabileceğini düşünüyorum. Her biri farklı bir rol oynar. Örneğin, World Labs'ın mevcut dünya modeli Marble, açıkça 3B temsiller çıkarır, ancak modelin içinde açık çıktıya ek olarak örtük temsiller de vardır. Dürüst olmak gerekirse, nihayetinde ikisine de ihtiyacımız olduğunu düşünüyorum. Girdi modalitelerine gelince, evet, filmden öğrenmek çok önemli. Tüm dünya, çok sayıda ardışık kareden oluşan bir girdidir, ancak bir ajan veya sadece bir hayvan için dünya sadece pasif bir görünüm değildir. Aynı zamanda hareket, etkileşim, dokunsal deneyimler, sesler, kokular ve fiziksel kuvvet ve sıcaklık gibi somutlaşmış deneyimleri de içerir. Bu yüzden derin multimodal olduğunu düşünüyorum. Tabii ki, bir model olarak Mermer sadece ilk adımdır, ancak birkaç gün önce yayınladığımız teknik makalemizde, multimodalitenin hem bir öğrenme paradigması hem de bir girdi paradigması olduğuna inandığımızı açıkça belirttik. Bu konuda çok fazla akademik tartışma yapıldı ve bu da alandaki erken heyecanı gösteriyor. Bu yüzden tam model mimarisini ve temsilini tam olarak keşfettiğimizi söyleyemem. Moderatör: Sizin dünya modelinizde, girdi çoğunlukla video mu oluyor ve sonra model dünyanın içsel bir temsilini mi oluşturuyor? Li Feifei: Tam olarak değil. Dünya modelimiz Mermer'i deneyimlediyseniz, girişi aslında çok modal. Düz metin, tek veya birden çok görüntü, film kullanabilir veya kareler veya voksel Vokseller gibi kaba bir 3B düzen girebilirsiniz. Yani çok modlu ve geliştikçe bunu derinleştirmeye devam edeceğiz. Görüşmeci: Birçok uygulama ile harika bir ürün olmasının yanı sıra, bir sistem kurma tutkunuz - dediğim gibi girdi bir film - doğrudan deneyimden öğrenen bir sistem mi? Metin gibi ikincil ortamlar yerine video veya diğer yöntemler aracılığıyla mı öğreniyor? Feifei Li: Evet, bence dünya modeli dünya hakkında bilgi edinmekle ilgili ve dünya çok modlu. İster bir makine ister bir hayvan olsun, çok duyusalız. Öğrenme algı yoluyla gerçekleşir ve algının farklı modaliteleri vardır. Kelimeler bu formlardan biridir. Bu aynı zamanda bizi hayvanlardan ayıran şeydir, çünkü çoğu hayvan karmaşık bir dille öğrenmez, ancak insanlar öğrenir. Bununla birlikte, günümüzün yapay zeka dünya modeli, çok sayıda dil girdisinden ve diğer modalitelerden öğrenir, ancak bir kanal olarak yalnızca dil ile sınırlı değildir. Moderatör: LLM'nin sınırlamalarından biri, model parametrelerinin eğitimden sonra sabitlenmesi ve modelin sürekli öğrenmemesidir. Çıkarımı test etmede bir miktar öğrenme olsa da, dünya modelinizde çözmeye çalıştığınız şey bu mu? Çünkü dünya modelinin yeni bir ortamla karşılaştığında sürekli olarak öğrenebilmesi gerektiği mantıklıdır. Li Feifei: Evet…