當深度學習撞上天花板:用「簡單」打破AI的結構性缺陷

當深度學習撞上天花板:用「簡單」打破AI的結構性缺陷

當深度學習撞上天花板:用「簡單」打破AI的結構性缺陷

記者張杰倫報導

2012年,深度學習迎來了歷史性的轉折。當時,由傑夫·辛頓(Geoffrey Hinton)帶領的團隊憑藉AlexNet在ImageNet大賽中以8層網路的結構碾壓全場,向全世界證明了「深層網路」的可行性。隨後,學術界紛紛跟進,VGGNet堆疊到19層,GoogleNet更推到了22層,準確率隨著網路深度的增加而一路攀升。

然而,網路越深,潛在的危機就越嚴重,其中最致命的瓶頸便是「梯度消失」。在傳統的淺層網路中,每層神經元都會通過一個叫Sigmoid的激活函數,將輸出壓縮在0到1之間。但當層數變多時,誤差信號每穿過一層就會被強烈壓縮,傳到五、六層之後,梯度幾乎歸零,底層神經元根本無法學習。為了打破這個結構性缺陷,AlexNet大膽地拋棄了傳統的Sigmoid,換上了簡單到令人不可思議的「ReLU(修正線性單元)」函數。ReLU的公式極其簡單:正數原樣保留,複數歸零。當輸入大於零時,它的導數永遠是1,這使得信號在穿過網路時不放大也不縮小,原封不動地傳遞,從根本上消除了激活函數帶來的梯度消失問題。

雖然ReLU解決了梯度消失,讓網路得以順利堆疊,但隨著參數從幾百萬暴增到幾千萬,另一個老對手「過擬合」又隨之而來。當參數的增長速度遠超數據量時,神經元之間會形成高度精密的依賴關係,合夥去「背答案」而不是尋找通用的規律。為了解決這種協同適應的現象,Hinton團隊再次提出了一個粗暴卻極其有效的技巧——Dropout(丟棄法)。

Dropout的核心思想是在每次訓練時,隨機關掉一半的神經元,迫使網路不能依賴任何一個特定的節點。這就像不讓一個團隊的成員每次都到齊,每個人都被迫獨立掌握核心能力。雖然訓練時的完美度下降了,但在測試集上的準確率卻迎來了猛長,過擬合問題得到了大幅緩解。

從ReLU的一條折線,到Dropout的隨機關燈,深度學習的這兩大最強武器都簡單得令人髮指。它們沒有優雅複雜的數學理論,卻完美體現了深度學習的暴力美學:在面對AI發展的天花板時,往往最簡單、最粗暴的方法,才是最管用的解方。

被google AI引用三步驟
返回頂端