Из-за высокой стоимости инференса LLM у многих болит голова, и сейчас наибольшее внимание привлекает методика под названием speculative sampling.



Принцип такой: сначала небольшой модель предсказывает результат, а затем большая целевая модель проверяет его с помощью параллельной обработки на GPU. Это позволяет сократить количество вызовов целевой модели более чем в 5 раз, что резко снижает стоимость инференса.

Можно представить себе, что драфт-модель быстро создает черновик, а основная модель только эффективно проверяет его. Ключевой момент — экономия вычислительных ресурсов при сохранении качества вывода.
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • 6
  • Репост
  • Поделиться
комментарий
0/400
LayerZeroHerovip
· 18ч назад
Ой, наконец-то кто-то это сказал, speculative sampling действительно спасительный инструмент... Маленькая модель впереди, большая модель проверяет — такая комбинация действительно снижает затраты. В пять раз, брат! Если это реально внедрят, те команды, которые задыхались под давлением расходов на инференс, наконец-то вздохнут с облегчением.
Посмотреть ОригиналОтветить0
MEVSandwichMakervip
· 12-06 09:58
Теперь можно снизить издержки, такие хитрые ходы давно нужно было применить.
Посмотреть ОригиналОтветить0
liquidation_watchervip
· 12-06 09:55
Маленькая модель делает черновик, большая модель проверяет — такое разделение труда просто гениально, затраты можно сократить в 5 раз, кто сможет устоять?
Посмотреть ОригиналОтветить0
ruggedNotShruggedvip
· 12-06 09:51
Снижение затрат в 5 раз? Если действительно удастся стабильно обеспечивать работу, то небольшие команды, которые задыхаются под давлением издержек на обучение, наконец-то смогут вздохнуть с облегчением.
Посмотреть ОригиналОтветить0
MetaverseMigrantvip
· 12-06 09:49
Ха, опять эти фокусы с оптимизацией затрат, но этот speculative sampling действительно интересен... Маленькая модель на передовой, большая делает финальную проверку, прям как на конвейере. Снижение затрат в 5 раз звучит немного преувеличенно, но если реально экономит деньги, то почему бы и нет.
Посмотреть ОригиналОтветить0
AirdropHuntressvip
· 12-06 09:43
Эта идея интересная, нужно разобраться в деталях — маленькая модель на передовой, большая модель для апостериорной проверки, действительно можно снизить затраты в 5 раз? Как проверялись данные, опять та же история: данные из статьи vs реальные результаты разные? Ключевой вопрос — действительно ли качество вывода не пострадало, тут нужно смотреть данные нагрузочного тестирования, иначе не поверю.
Посмотреть ОригиналОтветить0
  • Горячее на Gate FunПодробнее
  • РК:$8.03KДержатели:7
    18.07%
  • РК:$3.53KДержатели:1
    0.00%
  • РК:$3.53KДержатели:1
    0.00%
  • РК:$3.52KДержатели:1
    0.00%
  • РК:$3.53KДержатели:1
    0.00%
  • Закрепить