加速大語言模型推論效率，KV快取卸載解決方案總覽

隨著GPU的發展與製程的進步，GPU的HBM記憶體容量也持續提高，例如Nvidia在20022年推出的H100，記憶體容量為80GB，到了2024年推出的H200，記憶體容量增加到141GB，但這樣的提升幅度，遠遠跟不上LLMToken處理能力增長，所帶來的KV快取記憶體容量膨脹速度——GPU記憶體頂多以幾十個百分比到倍數增長，但KV快取的容量卻幾乎是以指數幅度增長。
藉由增加GPU數量，雖然連帶也能獲得更多HBM記憶體，但這種作法顯然不合成本效益。

發佈留言 取消回覆

發佈留言取消回覆