發布2026年6月8日 18:00·文｜報新聞

當深度學習撞上天花板：用「簡單」打破AI的結構性缺陷

記者張杰倫報導

2012年，深度學習迎來了歷史性的轉折。當時，由傑夫·辛頓（Geoffrey Hinton）帶領的團隊憑藉AlexNet在ImageNet大賽中以8層網路的結構碾壓全場，向全世界證明了「深層網路」的可行性。隨後，學術界紛紛跟進，VGGNet堆疊到19層，GoogleNet更推到了22層，準確率隨著網路深度的增加而一路攀升。

然而，網路越深，潛在的危機就越嚴重，其中最致命的瓶頸便是「梯度消失」。在傳統的淺層網路中，每層神經元都會通過一個叫Sigmoid的激活函數，將輸出壓縮在0到1之間。但當層數變多時，誤差信號每穿過一層就會被強烈壓縮，傳到五、六層之後，梯度幾乎歸零，底層神經元根本無法學習。為了打破這個結構性缺陷，AlexNet大膽地拋棄了傳統的Sigmoid，換上了簡單到令人不可思議的「ReLU（修正線性單元）」函數。ReLU的公式極其簡單：正數原樣保留，複數歸零。當輸入大於零時，它的導數永遠是1，這使得信號在穿過網路時不放大也不縮小，原封不動地傳遞，從根本上消除了激活函數帶來的梯度消失問題。

雖然ReLU解決了梯度消失，讓網路得以順利堆疊，但隨著參數從幾百萬暴增到幾千萬，另一個老對手「過擬合」又隨之而來。當參數的增長速度遠超數據量時，神經元之間會形成高度精密的依賴關係，合夥去「背答案」而不是尋找通用的規律。為了解決這種協同適應的現象，Hinton團隊再次提出了一個粗暴卻極其有效的技巧——Dropout（丟棄法）。

Dropout的核心思想是在每次訓練時，隨機關掉一半的神經元，迫使網路不能依賴任何一個特定的節點。這就像不讓一個團隊的成員每次都到齊，每個人都被迫獨立掌握核心能力。雖然訓練時的完美度下降了，但在測試集上的準確率卻迎來了猛長，過擬合問題得到了大幅緩解。

從ReLU的一條折線，到Dropout的隨機關燈，深度學習的這兩大最強武器都簡單得令人髮指。它們沒有優雅複雜的數學理論，卻完美體現了深度學習的暴力美學：在面對AI發展的天花板時，往往最簡單、最粗暴的方法，才是最管用的解方。

當深度學習撞上天花板：用「簡單」打破AI的結構性缺陷

最新新聞

東門溪水質淨化設施通水試運轉　公私協力推動南崁溪整治再邁一步

桃市府反擊黃世杰交通執法批評　羅楚東指科技執法降低事故、勿以人情味模糊焦點

「公益從心出發！」蔡佳欣號召愛心攜手康復之友打造共融社會

「治理從地方開始」嘉義論壇登場張啓楷拋輕軌、全齡照護藍圖打造幸福城市

「樂響新社」今夜登場！東勢警超前部署交維安　打造安全順暢音樂盛會

追蹤我們