Chắc hẳn có nhiều người đau đầu vì chi phí suy luận LLM, dạo này phương pháp được chú ý là speculative sampling.



Nguyên lý như sau - mô hình nhỏ sẽ dự đoán kết quả trước, sau đó mô hình lớn (mục tiêu) sẽ kiểm tra đồng thời bằng xử lý song song trên GPU. Nhờ vậy, số lần gọi mô hình mục tiêu có thể giảm đến hơn 5 lần, giúp giảm mạnh chi phí suy luận.

Bạn có thể hiểu là mô hình draft tạo bản nháp nhanh, còn mô hình chính chỉ kiểm tra hiệu quả. Điều quan trọng là vừa tiết kiệm tài nguyên tính toán vừa giữ nguyên chất lượng đầu ra.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 6
  • Đăng lại
  • Retweed
Bình luận
0/400
LayerZeroHerovip
· 16giờ trước
Ôi trời, cuối cùng cũng có người nói về vấn đề này, speculative sampling thật sự là cứu tinh mà... Mô hình nhỏ làm tiền trạm, mô hình lớn kiểm duyệt, bộ combo này thực sự đã cắt giảm chi phí. Gấp năm lần đó anh em, nếu thật sự có thể triển khai thì những đội nhóm bị chi phí suy luận đè nặng sẽ sung sướng lắm.
Xem bản gốcTrả lời0
MEVSandwichMakervip
· 12-06 09:58
Như vậy chi phí có thể được giảm xuống rồi, lẽ ra nên có kiểu thao tác bá đạo này từ lâu.
Xem bản gốcTrả lời0
liquidation_watchervip
· 12-06 09:55
Mô hình nhỏ để phác thảo, mô hình lớn để kiểm tra hàng, cách phân công này thật sự quá đỉnh, chi phí có thể giảm 5 lần thì ai mà chịu nổi chứ.
Xem bản gốcTrả lời0
ruggedNotShruggedvip
· 12-06 09:51
Giảm chi phí gấp 5 lần? Nếu thực sự có thể duy trì hiệu suất ổn định như vậy, thì những nhóm nhỏ đang bị chi phí suy luận đè nặng đến mức không thở nổi sẽ được cứu.
Xem bản gốcTrả lời0
MetaverseMigrantvip
· 12-06 09:49
Haha, lại là bộ tối ưu hóa chi phí đó, cái speculative sampling này đúng là khá thú vị... mô hình nhỏ làm tiền trạm, mô hình lớn làm kiểm duyệt cuối, cảm giác giống như dây chuyền sản xuất vậy. Chi phí giảm 5 lần nghe có vẻ hơi phóng đại nhưng nếu thật sự tiết kiệm được tiền thì cũng tốt thôi.
Xem bản gốcTrả lời0
AirdropHuntressvip
· 12-06 09:43
Ý tưởng này thú vị đấy, mình phải xem kỹ chi tiết thôi — mô hình nhỏ làm tiền đạo, mô hình lớn hậu kiểm, chi phí có thể giảm 5 lần? Dữ liệu xác thực thế nào, đừng lại là kiểu dữ liệu trên giấy vs thực tế chạy khác nhau như cũ nhé. Quan trọng là chất lượng đầu ra thực sự không giảm sút chứ, phần này phải xem dữ liệu benchmark thực tế mới dám tin.
Xem bản gốcTrả lời0
  • Gate Fun hotXem thêm
  • Vốn hóa:$4.72KNgười nắm giữ:3
    5.74%
  • Vốn hóa:$3.53KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.53KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.52KNgười nắm giữ:1
    0.00%
  • Vốn hóa:$3.53KNgười nắm giữ:1
    0.00%
  • Ghim