加速大語言模型推論效率,KV快取卸載解決方案總覽

隨著GPU的發展與製程的進步,GPU的HBM記憶體容量也持續提高,例如Nvidia在20022年推出的H100,記憶體容量為80GB,到了2024年推出的H200,記憶體容量增加到141GB,但這樣的提升幅度,遠遠跟不上LLMToken處理能力增長,所帶來的KV快取記憶體容量膨脹速度——GPU記憶體頂多以幾十個百分比到倍數增長,但KV快取的容量卻幾乎是以指數幅度增長。
藉由增加GPU數量,雖然連帶也能獲得更多HBM記憶體,但這種作法顯然不合成本效益。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *