華為即將發(fā)布AI固態(tài)硬盤,配合統(tǒng)一緩存管理軟件,將鍵值緩存數(shù)據(jù)從GPU高帶寬內(nèi)存中轉(zhuǎn)移到SSD存儲,避免重復(fù)計算以提升AI處理速度。該方案采用分層緩存架構(gòu),整合GPU內(nèi)存、CPU內(nèi)存和SSD存儲。華為還將運用XtremeLink技術(shù)和SpeedFlex印刷電路板技術(shù)。此舉旨在解決GPU服務(wù)器內(nèi)存墻問題,幫助中國構(gòu)建新的AI生態(tài)系統(tǒng)。
英偉達(dá)通過Dynamo引擎實現(xiàn)分層KV緩存,將大語言模型的鍵值對存儲從GPU高帶寬內(nèi)存擴展至CPU內(nèi)存、直連SSD和網(wǎng)絡(luò)存儲。該技術(shù)解決了GPU內(nèi)存不足時向量數(shù)據(jù)被驅(qū)逐需重新計算的問題,通過多層存儲架構(gòu)提升推理效率。Dynamo支持vLLM等推理引擎,具備分離服務(wù)、智能路由等四大功能。目前已有Cloudian、DDN、戴爾、HPE、NetApp、Pure Storage等多家存儲廠商宣布支持該技術(shù)。