科技產業的進步正透過人工智慧(AI)領域的創新加速推進。Lightbits Labs近日發布了一項旨在解決大規模AI推理中內存瓶頸問題的新架構。該架構通過與ScaleFlux和FarmGPU合作開發,結合了非易失性內存快速存儲、GPU推理基礎設施以及Lightbits的軟體,幫助AI系統更高效地管理推理過程中生成的資料快取。在雲端運營商處理推理任務時正感受到成本壓力的背景下,此次發布預計將是個好消息。GPU的高昂成本已成為佔據運營大部分支出的問題,為改善此狀況,Lightbits設定了優化GPU利用率的目標。Lightbits的新平台通過增加單台GPU可處理的請求數量來增強推理效率。這直接轉化為單次處理成本的降低,意義重大。據Lightbits測試結果顯示,其在相同GPU上將處理請求數提升至三倍的同時,成功將電力與基礎設施成本降低了65%。此解決方案的核心在於"KV快取"。該快取存儲推理過程中生成的中間向量,通過復用先前計算結果避免不必要的運算。但隨著模型規模的擴大,快取容量也在急劇增長。內存需求量每年以兩倍以上的速度遞增,長期來看需要多方努力解決此問題。為此,Lightbits引入了通過預測資料移動、預先向GPU提供所需資訊的創新方法。LightInferra系統能跨內存層級管理並加速資料移動,其設計確保GPU無需等待資料。該系統可在不超過GPU內存容量的限度內保障推理流程的順暢運行。雲端服務商可借此設計優化GPU使用率,或在現有基礎設施內提升整體處理能力。該架構正與NeoCloud合作,計畫於7月起投入生產部署。
Lightbits,AI推理效率化創新降低雲成本
科技產業的進步正透過人工智慧(AI)領域的創新加速推進。Lightbits Labs近日發布了一項旨在解決大規模AI推理中內存瓶頸問題的新架構。該架構通過與ScaleFlux和FarmGPU合作開發,結合了非易失性內存快速存儲、GPU推理基礎設施以及Lightbits的軟體,幫助AI系統更高效地管理推理過程中生成的資料快取。
在雲端運營商處理推理任務時正感受到成本壓力的背景下,此次發布預計將是個好消息。GPU的高昂成本已成為佔據運營大部分支出的問題,為改善此狀況,Lightbits設定了優化GPU利用率的目標。
Lightbits的新平台通過增加單台GPU可處理的請求數量來增強推理效率。這直接轉化為單次處理成本的降低,意義重大。據Lightbits測試結果顯示,其在相同GPU上將處理請求數提升至三倍的同時,成功將電力與基礎設施成本降低了65%。
此解決方案的核心在於"KV快取"。該快取存儲推理過程中生成的中間向量,通過復用先前計算結果避免不必要的運算。但隨著模型規模的擴大,快取容量也在急劇增長。內存需求量每年以兩倍以上的速度遞增,長期來看需要多方努力解決此問題。為此,Lightbits引入了通過預測資料移動、預先向GPU提供所需資訊的創新方法。
LightInferra系統能跨內存層級管理並加速資料移動,其設計確保GPU無需等待資料。該系統可在不超過GPU內存容量的限度內保障推理流程的順暢運行。雲端服務商可借此設計優化GPU使用率,或在現有基礎設施內提升整體處理能力。該架構正與NeoCloud合作,計畫於7月起投入生產部署。