
商傳媒|責任編輯/綜合外電報導
Google 研究部門(Google Research)近日推出一項名為 TurboQuant 的人工智慧模型壓縮演算法,宣稱能在不犧牲準確性或無需重新訓練的情況下,大幅降低大型語言模型(LLM)關鍵記憶體「鍵值快取」(KV cache)的消耗。這項技術的發表,預計將對AI硬體設計及部署帶來深遠影響。
現今的LLM在處理長文本時,鍵值快取記憶體會隨著對話長度與上下文視窗大小呈線性增長,進而大幅增加圖形處理器(GPU)的記憶體負擔並拖慢推論速度。以處理百萬級代碼的GPT-4模型為例,其鍵值快取便可佔用數百GB記憶體,遠超單一Nvidia A100 GPU的80GB容量,往往需要部署多顆GPU才能應付。
TurboQuant演算法的核心是量化技術,它能將標準的32位元浮點數(float32)鍵值快取資料壓縮至3到4位元的整數表示。不同於模型權重(model weight)的量化,鍵值快取資料是在推論時動態生成,需即時壓縮,傳統量化方法易因累積數值誤差而影響準確性。為克服此挑戰,TurboQuant結合了PolarQuant與量化式約翰遜-林登斯特勞斯(Quantized Johnson-Lindenstrauss, QJL)兩項技術。其中,PolarQuant透過正交矩陣轉換優化壓縮品質,QJL則作為錯誤校正機制,將高維向量壓縮成單一位元,同時修正殘餘誤差以維持語義一致性。
Google針對多個開源模型,包括Gemma-7B、Mistral-7B-v0.1及Llama-3-8B進行了測試。結果顯示,TurboQuant能將鍵值快取壓縮至2.5至3.5位元,相較於標準的16位元格式(FP16),記憶體使用量減少了五到六倍。在3.5位元壓縮下,效能幾乎沒有減損;即便在2.5位元時,其準確度仍顯著優於其他競爭方法如KIVI。此外,Nvidia H100 GPU的注意力處理速度最高提升八倍,整體生成速度,尤其在長上下文情境中,也獲得顯著改善。
TurboQuant具備無需重新訓練或微調即可立即部署的優勢,且Google已將其開放原始碼並允許商業使用。分析師指出,儘管這項技術能提升AI效率,但根據耶佛斯悖論(Jevons paradox),效率的提高可能反而促進AI的廣泛應用,而非減少記憶體總需求。AI晶片仍高度依賴高頻寬記憶體(HBM),因此記憶體需求不太可能出現結構性下降。這項技術預計將加速邊緣AI與實體AI應用(如機器人技術)的發展,對於台灣等在全球AI晶片及高頻寬記憶體供應鏈中扮演關鍵角色的半導體產業而言,儘管單一裝置的記憶體效率提升,但整體AI市場的擴張將持續推升對高效能硬體組件的需求。


