Google TurboQuant演算法突破 AI記憶體效率倍增不失真 — 圖／本報AI製圖（示意圖）

商傳媒｜責任編輯／綜合外電報導

Google 研究部門（Google Research）近日推出一項名為 TurboQuant 的人工智慧模型壓縮演算法，宣稱能在不犧牲準確性或無需重新訓練的情況下，大幅降低大型語言模型（LLM）關鍵記憶體「鍵值快取」（KV cache）的消耗。這項技術的發表，預計將對AI硬體設計及部署帶來深遠影響。

現今的LLM在處理長文本時，鍵值快取記憶體會隨著對話長度與上下文視窗大小呈線性增長，進而大幅增加圖形處理器（GPU）的記憶體負擔並拖慢推論速度。以處理百萬級代碼的GPT-4模型為例，其鍵值快取便可佔用數百GB記憶體，遠超單一Nvidia A100 GPU的80GB容量，往往需要部署多顆GPU才能應付。

TurboQuant演算法的核心是量化技術，它能將標準的32位元浮點數（float32）鍵值快取資料壓縮至3到4位元的整數表示。不同於模型權重（model weight）的量化，鍵值快取資料是在推論時動態生成，需即時壓縮，傳統量化方法易因累積數值誤差而影響準確性。為克服此挑戰，TurboQuant結合了PolarQuant與量化式約翰遜-林登斯特勞斯（Quantized Johnson-Lindenstrauss, QJL）兩項技術。其中，PolarQuant透過正交矩陣轉換優化壓縮品質，QJL則作為錯誤校正機制，將高維向量壓縮成單一位元，同時修正殘餘誤差以維持語義一致性。

Google針對多個開源模型，包括Gemma-7B、Mistral-7B-v0.1及Llama-3-8B進行了測試。結果顯示，TurboQuant能將鍵值快取壓縮至2.5至3.5位元，相較於標準的16位元格式（FP16），記憶體使用量減少了五到六倍。在3.5位元壓縮下，效能幾乎沒有減損；即便在2.5位元時，其準確度仍顯著優於其他競爭方法如KIVI。此外，Nvidia H100 GPU的注意力處理速度最高提升八倍，整體生成速度，尤其在長上下文情境中，也獲得顯著改善。

TurboQuant具備無需重新訓練或微調即可立即部署的優勢，且Google已將其開放原始碼並允許商業使用。分析師指出，儘管這項技術能提升AI效率，但根據耶佛斯悖論（Jevons paradox），效率的提高可能反而促進AI的廣泛應用，而非減少記憶體總需求。AI晶片仍高度依賴高頻寬記憶體（HBM），因此記憶體需求不太可能出現結構性下降。這項技術預計將加速邊緣AI與實體AI應用（如機器人技術）的發展，對於台灣等在全球AI晶片及高頻寬記憶體供應鏈中扮演關鍵角色的半導體產業而言，儘管單一裝置的記憶體效率提升，但整體AI市場的擴張將持續推升對高效能硬體組件的需求。

Google TurboQuant演算法突破 AI記憶體效率倍增不失真

最新新聞

懂吃老饕必修課！莞固和食還原正統關西「春懷石」　八道菜序演繹一期一會的極致旨味

桃捷親子彩繪車廂啟航迎兒童節　張善政開箱Colorful童趣體驗

「清明掃墓別讓愛車白吃灰」掌握簡單技巧護車又省荷包

「碳有價時代來臨」2026 ESG永續台灣高峰會登場　產官學共議企業轉型新契機

「紙上神來一筆」成關鍵線索　南港警助老翁平安返家

追蹤我們