Lightbits,AI推理效率化創新降低雲成本

robot
摘要生成中

科技產業的進步正透過人工智慧(AI)領域的創新加速推進。Lightbits Labs近日發布了一項旨在解決大規模AI推理中內存瓶頸問題的新架構。該架構通過與ScaleFlux和FarmGPU合作開發,結合了非易失性內存快速存儲、GPU推理基礎設施以及Lightbits的軟體,幫助AI系統更高效地管理推理過程中生成的資料快取。

在雲端運營商處理推理任務時正感受到成本壓力的背景下,此次發布預計將是個好消息。GPU的高昂成本已成為佔據運營大部分支出的問題,為改善此狀況,Lightbits設定了優化GPU利用率的目標。

Lightbits的新平台通過增加單台GPU可處理的請求數量來增強推理效率。這直接轉化為單次處理成本的降低,意義重大。據Lightbits測試結果顯示,其在相同GPU上將處理請求數提升至三倍的同時,成功將電力與基礎設施成本降低了65%。

此解決方案的核心在於"KV快取"。該快取存儲推理過程中生成的中間向量,通過復用先前計算結果避免不必要的運算。但隨著模型規模的擴大,快取容量也在急劇增長。內存需求量每年以兩倍以上的速度遞增,長期來看需要多方努力解決此問題。為此,Lightbits引入了通過預測資料移動、預先向GPU提供所需資訊的創新方法。

LightInferra系統能跨內存層級管理並加速資料移動,其設計確保GPU無需等待資料。該系統可在不超過GPU內存容量的限度內保障推理流程的順暢運行。雲端服務商可借此設計優化GPU使用率,或在現有基礎設施內提升整體處理能力。該架構正與NeoCloud合作,計畫於7月起投入生產部署。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言