Багато людей мають головний біль через вартість LLM-інференсу, і зараз увагу привертає методика під назвою speculative sampling.



Принцип такий: спочатку маленька модель прогнозує результат, а потім велика цільова модель перевіряє його за допомогою паралельної обробки на GPU. Це дозволяє зменшити кількість викликів цільової моделі більш ніж у 5 разів, тому витрати на інференс різко знижуються.

Уявіть собі, що драфт-модель швидко створює чернетку, а основна модель лише ефективно перевіряє її. Головне тут те, що можна зекономити обчислювальні ресурси, зберігаючи при цьому якість результату.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • 5
  • Репост
  • Поділіться
Прокоментувати
0/400
MEVSandwichMakervip
· 8год тому
Тепер вартість можна знизити, такі хитрі дії давно мали з’явитися.
Переглянути оригіналвідповісти на0
liquidation_watchervip
· 8год тому
Маленька модель робить чернетку, велика модель перевіряє — ця система розподілу роботи справді неймовірна, витрати можна скоротити в 5 разів, хто це витримає?
Переглянути оригіналвідповісти на0
ruggedNotShruggedvip
· 8год тому
Зниження витрат у 5 разів? Якщо це справді зможе стабільно працювати, то ті маленькі команди, які ледве дихають через високу вартість інференсу, нарешті зможуть зітхнути з полегшенням.
Переглянути оригіналвідповісти на0
MetaverseMigrantvip
· 8год тому
Ха, знову та сама оптимізація витрат, ця speculative sampling справді цікава... Маленька модель працює на передовій, а велика модель робить фінальну перевірку, відчуття, ніби це конвеєр. Зниження витрат у 5 разів звучить трохи перебільшено, але якщо справді можна зекономити — то чому б і ні.
Переглянути оригіналвідповісти на0
AirdropHuntressvip
· 8год тому
Ця ідея цікава, треба розібратися в деталях — маленька модель йде попереду, велика модель перевіряє результат, витрати можна скоротити в 5 разів? Як перевіряли дані, чи не знову це класична історія, коли результати в статті відрізняються від реальних тестів. Головне питання — чи не постраждала якість вихідних даних, тут треба дивитися на результати реального навантаження, щоб повірити.
Переглянути оригіналвідповісти на0
  • Закріпити