سكانا إيه آي تطلق نظام KAME، مع تأخير يقارب الصفر وتحقيق حقن معرفي أعمق

robot
إنشاء الملخص قيد التقدم

رسالة AIMPACT، 3 مايو (بتوقيت UTC+8)، أطلقت Sakana AI بنية هجينة تسمى KAME، يمكنها إدخال معرفة LLM الخلفية في الوقت الحقيقي مع الحفاظ على تأخير قريب من الصفر. يتكون النظام من مكونين غير متزامنين يعملان بالتوازي: الوحدة الأمامية المبنية على بنية Moshi، وهي وحدة S2S، تعالج الصوت بشكل دوري يقارب 80 مللي ثانية وتولد استجابة على الفور؛ الوحدة الخلفية تتكون من مكون STT و LLM كامل، وتستمر في بناء نسخ جزئية وتوليد تدفق oracle الذي يُرسل إلى الواجهة الأمامية، وعندما يصل oracle الأفضل، يمكن تصحيح الاستجابة في منتصف الطريق. أظهرت التقييمات أن درجة Moshi وحدها كانت 2.05، وKAME+gpt-4.1 كانت 6.43، وKAME+claude-opus-4-1 كانت 6.23، وكانت جميعها تتأخر بمقدار مماثل لـ Moshi؛ بينما نظام الاتصال المتقدم Unmute حصل على 7.70 لكن بتأخير يصل إلى 2.1 ثانية. لا يعتمد KAME على الخلفية، ويدعم تبديل LLM أثناء الاستدلال دون الحاجة إلى إعادة التدريب.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت