بسبب تكلفة استدلال نماذج اللغة الكبيرة (LLM)، كثير من الناس يعانون من صداع. في الفترة الأخيرة، هناك تقنية تحظى بالاهتمام تُسمى "speculative sampling".



المبدأ كالتالي: نموذج صغير يتنبأ بالنتيجة أولاً، ثم النموذج الكبير المستهدف يقوم بالتحقق دفعة واحدة باستخدام معالجة متوازية عبر GPU. يمكن تقليل عدد مرات استدعاء النموذج المستهدف حتى 5 مرات أو أكثر، وهذا يؤدي إلى انخفاض كبير في تكلفة الاستدلال.

فكر في الأمر وكأن نموذج المسودة يجهز مسودة بسرعة، بينما النموذج الرئيسي يكتفي بالتحقق بكفاءة. النقطة الأساسية هي إمكانية توفير موارد الحوسبة مع الحفاظ على جودة المخرجات كما هي.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 5
  • إعادة النشر
  • مشاركة
تعليق
0/400
MEVSandwichMakervip
· منذ 6 س
كذا بنقدر نخفض التكاليف، كان المفروض من زمان نسوي الحركة هذي.
شاهد النسخة الأصليةرد0
liquidation_watchervip
· منذ 6 س
النموذج الصغير يكتب المسودة والنموذج الكبير يراجع العمل، هذا التقسيم في الأدوار فعلاً مذهل، التكلفة ممكن تنخفض خمس مرات، من يقدر يقاوم كذا؟
شاهد النسخة الأصليةرد0
ruggedNotShruggedvip
· منذ 6 س
انخفاض التكلفة بمقدار 5 مرات؟ إذا كان هذا فعلاً يمكن أن ينتج بشكل مستقر، فستكون هذه فرصة إنقاذ حقيقية للفرق الصغيرة التي أثقلت كاهلها تكاليف الاستدلال.
شاهد النسخة الأصليةرد0
MetaverseMigrantvip
· منذ 6 س
هاه، رجعنا لموضوع تحسين التكاليف، هذا الـ speculative sampling فعلاً فيه شيء مثير للاهتمام... النموذج الصغير في المقدمة والنموذج الكبير يعمل المراجعة النهائية، أحسه مثل خط الإنتاج فعلاً. انخفاض التكاليف 5 أضعاف الرقم يبدو مبالغ فيه شوي لكن إذا فعلاً يوفّر فلوس فهذا المطلوب.
شاهد النسخة الأصليةرد0
AirdropHuntressvip
· منذ 6 س
هذا التفكير مثير للاهتمام، لازم نفصفص التفاصيل شوي—النموذج الصغير في المقدمة، النموذج الكبير للتحقق، التكلفة ممكن تنخفض 5 مرات؟ كيف تم التحقق من البيانات، لا يكون نفس السيناريو المعتاد بيانات الورقة العلمية تختلف عن التنفيذ الفعلي. الأهم هل فعلاً جودة المخرجات ما انخفضت، هنا لازم نشوف بيانات اختبار الأداء الفعلية عشان نصدق.
شاهد النسخة الأصليةرد0
  • تثبيت