امسح ضوئيًا لتحميل تطبيق Gate
qrCode
خيارات تحميل إضافية
لا تذكرني بذلك مرة أخرى اليوم

لي في في تتحدث عن الخطوة التالية لـ LLM: يجب أن تمتلك الذكاء الاصطناعي "الذكاء المكاني" لفهم العالم الحقيقي، كيف تحقق Marble ذلك؟

مؤسس World Labs، لي في في، التي تُلقب بـ “أم الذكاء الاصطناعي”، تقبل مقابلة لمناقشة ضرورة تجاوز الذكاء الاصطناعي للغة وتطوير “الذكاء المكاني”، مما يمكّن الآلات من فهم وبناء العالم الفيزيائي ثلاثي الأبعاد حقًا. (ملخص سابق: تقرير تقني من a16z عن كيفية استحواذ الذكاء الاصطناعي على العالم) (معلومات خلفية: راي داليو: من المبكر جدًا بيع أسهم الذكاء الاصطناعي الآن! لأن “الإغراق” لم يظهر بعد) في الوقت الذي يتصدر فيه نماذج اللغة الكبيرة المشهد عالميًا، توجهت أستاذة جامعة ستانفورد لي في في، التي تُعرف بـ “أم الذكاء الاصطناعي”، نحو الحدود التالية في الذكاء الاصطناعي: الذكاء المكاني. بعد مغادرتها Google Cloud، أسست لي في في الشركة الناشئة المثيرة للاهتمام World Labs وأطلقت أول منتج نموذج عالمي لها، Marble. في هذه المقابلة العميقة مع “Eye on AI”، توضح لي في في بالتفصيل لماذا لا يمكن أن يقتصر الذكاء الاصطناعي على فهم النصوص، بل يجب أن يمتلك القدرة على “الرؤية” و"الإحساس" و"بناء" العالم ثلاثي الأبعاد. تتناول هذه المقابلة العديد من القضايا الرئيسية، بما في ذلك: تجاوز اللغة: لماذا لا يمكن التقاط المعرفة البشرية بالكامل من خلال النصوص، ولماذا يحتاج الذكاء الاصطناعي إلى التعلم متعدد الأنماط؟ فك الشيفرة التقنية: كيف يمكن لنموذج “RTFM” من World Labs أن ينتج عالمًا ثلاثي الأبعاد متسقًا هندسيًا باستخدام وحدة معالجة رسومات واحدة؟ وجهات نظر أكاديمية: ما هي أوجه التشابه والاختلاف بين منهج لي في في ومنهج يان ليكون، كبير علماء الذكاء الاصطناعي في ميتا، في مفاهيم النموذج العالمي؟ آفاق المستقبل: متى سيستطيع الذكاء الاصطناعي فهم القوانين الفيزيائية حقًا، بل وإظهار الإبداع في استكشاف العلوم؟ فيما يلي النص الكامل للمقابلة المثيرة. المضيف: لا أريد أن أقضي الكثير من الوقت في الحديث عن Marble - وهو نموذجك الجديد الذي يمكنه إنشاء عوالم ثلاثية الأبعاد متسقة ودائمة يمكن للجمهور التنقل فيها، رغم أنه رائع حقًا. أود أن أستكشف أكثر لماذا تركزين على “النموذج العالمي” و"الذكاء المكاني"؟ لماذا يعتبر ذلك ضروريًا لتجاوز التعلم اللغوي؟ وما الفرق بين منهجك ومنهج يان ليكون؟ هل يمكنك أن تخبرينا أولاً، هل نشأ النموذج العالمي من أبحاثك في الذكاء البيئي، أم هو مسار بحثي موازٍ؟ لي في في: العمل على الذكاء المكاني الذي أفكر فيه منذ عدة سنوات هو بالفعل استمرار لتركيزي على الرؤية الحاسوبية والذكاء البصري خلال مسيرتي المهنية. أؤكد على “المكاني” لأن تقنياتنا قد تطورت إلى درجة أن تعقيدها وقدراتها العميقة لم تعد تقتصر فقط على مشاهدة الصور أو فهم مقاطع الفيديو البسيطة. إنها إدراك عميق، مكاني، وترتبط بتقنية الروبوتات، والذكاء الاصطناعي الجسدي، وذكاء البيئة. لذا من هذا المنظور، فإن هذا هو بالفعل استمرار لمسيرتي في مجالات الرؤية الحاسوبية والذكاء الاصطناعي. المضيف: تحدثت أيضًا عن أهمية الذكاء المكاني في هذا البودكاست لفترة من الوقت. نماذج اللغة تتعلم من المعرفة البشرية المشفرة في النصوص، لكن ذلك ليس سوى جزء صغير من المعرفة البشرية. كما أشرتِ أنتِ والعديد من الآخرين، يتعلم الكثير من البشر في كثير من الأحيان من خلال التفاعل مع العالم دون وجود لغة. لذا، هذا مهم، على الرغم من أن LLM الحالية مذهلة، لكن إذا أردنا تجاوزها، نحتاج إلى تطوير نماذج تستطيع تجربة العالم بشكل مباشر والتعلم مباشرة من العالم. منهجك - بالطبع Marble هو مثال - هو استخراج التمثيلات الداخلية للعالم التي تعلمها النموذج، واستخدام هذه التمثيلات لإنشاء واقع بصري خارجي. أما منهج ليكون، فهو يعتمد على بناء التمثيلات الداخلية من التجربة المباشرة أو المدخلات من مقاطع الفيديو، مما يسمح للنموذج بتعلم قوانين الفيزياء للحركة وما إلى ذلك. هل هناك علاقة موازية بين الاثنين؟ هل هذه الطريقتان مكملتان أم متداخلتان؟ لي في في: أولاً، في الحقيقة لا أرى نفسي في مواجهة مع يان، لأنني أعتقد أننا جميعًا في طيف أكاديمي نحو الذكاء المكاني والنموذج العالمي. ربما كنت قد قرأت مقالي الطويل الذي نشرته مؤخرًا، “بيان الذكاء المكاني”، حيث أوضحت ذلك بوضوح. أعتقد فعليًا أنه إذا كنا سنفكر في النهاية في نموذج عالمي شامل، فإن “التمثيل الضمني” و"التمثيل الصريح" إلى حد ما - خاصة في طبقة الإخراج - قد تكون مطلوبة. كل منهما يلعب دورًا مختلفًا. على سبيل المثال، النموذج العالمي الحالي من World Labs، Marble، يقوم فعليًا بإخراج تمثيلات ثلاثية الأبعاد بشكل واضح، ولكن داخل النموذج، بجانب الإخراج الصريح، توجد أيضًا تمثيلات ضمنية. بصراحة، أعتقد أننا في النهاية نحتاج إلى كلاهما. بالنسبة لموضع المدخلات، نعم، التعلم من مقاطع الفيديو مهم للغاية. العالم يتكون من مدخلات تتكون من العديد من الإطارات المتتابعة، لكن بالنسبة للذكاء أو حتى الحيوانات، العالم ليس مجرد مشاهدة سلبية. إنه يتضمن أيضاً الحركة، التفاعل، التجارب اللمسية، الصوت، الرائحة، بالإضافة إلى القوى الفيزيائية، ودرجات الحرارة، وما إلى ذلك من تجارب جسدية. لذا أعتقد أن هذا هو التعلم متعدد الأنماط العميق. بالطبع، Marble كنموذج هو مجرد الخطوة الأولى، لكننا أوضحنا في المقالة التقنية التي نشرناها قبل أيام قليلة أننا نعتقد أن التعلم متعدد الأنماط هو نمط تعلم وكذلك نمط إدخال. هناك الكثير من النقاش الأكاديمي حول هذا الأمر، وهذا يظهر الحماس المبكر في هذا المجال. لذا، لا أقول أننا قد استكشفنا تمامًا الهيكل الدقيق للنموذج وأشكال التمثيل. المضيف: هل المدخلات في نموذجك العالمي هي أساسًا مقاطع الفيديو، ثم يقوم النموذج بإنشاء تمثيل داخلي للعالم؟ لي في في: ليس تمامًا. إذا كنت قد جربت نموذجنا العالمي Marble، فإن مدخلاته متنوعة جدًا. يمكنك استخدام نصوص فقط، صورة واحدة أو عدة صور، مقاطع فيديو، أو حتى إدخال تخطيط ثلاثي الأبعاد تقريبي (مثل المكعبات أو الفوكسلز). لذا، هو متعدد الأنماط، وسنستمر في تعميق ذلك مع تطورنا. المضيف: بالإضافة إلى كونها منتجًا رائعًا يتمتع بالعديد من التطبيقات، هل تطمحين إلى إنشاء نظام - كما قلت، المدخلات هي مقاطع الفيديو - نظام قادر على التعلم من التجارب المباشرة؟ سواء من خلال مقاطع الفيديو أو أنماط أخرى، وليس من خلال وسائط ثانوية مثل النصوص؟ لي في في: نعم، أعتقد أن النموذج العالمي يتعلق بتعلم هذا العالم، والعالم هو متعدد الأنماط للغاية. سواء كانت آلات أو حيوانات، نحن جميعًا لدينا حواس متعددة. التعلم يحدث من خلال الإدراك، والإدراك لديه أنماط مختلفة. النصوص هي إحدى هذه الأشكال. وهذا أيضًا ما يميزنا عن الحيوانات، لأن معظم الحيوانات لا تتعلم من خلال اللغة المعقدة، لكن البشر يفعلون. ومع ذلك، اليوم، ستتعلم نماذج الذكاء الاصطناعي العالمية من مدخلات لغوية ضخمة بالإضافة إلى أنماط أخرى، لكنها لن تقتصر فقط على هذا النوع من القنوات اللغوية. المضيف: واحدة من قيود LLM هي أن معلمات النموذج ثابتة بعد التدريب، ولا يتعلم النموذج باستمرار. على الرغم من وجود مستوى معين من التعلم خلال استنتاج الاختبار، إلا أن هذه أيضًا مشكلة تسعون لحلها في النموذج العالمي، أليس كذلك؟ لأنه من المفترض أن يكون النموذج العالمي قادرًا على التعلم المستمر عند مواجهة بيئات جديدة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
0/400
لا توجد تعليقات
  • Gate Fun الساخنعرض المزيد
  • القيمة السوقية:$3.37Kعدد الحائزين:2
    0.22%
  • القيمة السوقية:$3.37Kعدد الحائزين:2
    0.05%
  • القيمة السوقية:$3.34Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$3.35Kعدد الحائزين:1
    0.24%
  • القيمة السوقية:$3.39Kعدد الحائزين:2
    0.10%
  • تثبيت