從全連接層到卷積
我們之前討論的多層感知機十分適合處理表格數據,其中行對應樣本,列對應特征。 對于表格數據,我們尋找的模式可能涉及特征之間的交互,但是我們不能預先假設任何與特征交互相關的先驗結構。 此時,多層感知機可能是最好的選擇,然而對于高維感知數據,這種缺少結構的網絡可能會變得不實用。
例如,在之前貓狗分類的例子中:假設我們有一個足夠充分的照片數據集,數據集中是擁有標注的照片,每張照片具有百萬級像素,這意味著網絡的每次輸入都有一百萬個維度。 即使將隱藏層維度降低到1000,這個全連接層也將有 \(10^6 * 10^3 = 10^9\) 個參數。 想要訓練這個模型將不可實現,因為需要有大量的GPU、分布式優化訓練的經驗和超乎常人的耐心。
不變性
平移不變性
不管檢測對象出現在圖像中的哪個位置,神經網絡的前面幾層應該對相同的圖像區域具有相似的反應,即為“平移不變性”
局部性
神經網絡的前面幾層應該只探索輸入圖像中的局部區域,而不過度在意圖像中相隔較遠區域的關系,這就是“局部性”原則。最終,可以聚合這些局部特征,以在整個圖像級別進行預測。
多層感知機的限制
假設多層感知機的輸入是\(X\),將其隱藏表示記為\(H\),使用 \([X]_{i,j}\) 和 \([H]_{i,j}\) 表示 \((i,j)\) 位置上的像素點。
因為每個像素點都需要和其他像素點聯系,故每個像素點都需要一個二階的權重張量,又由于是二維圖像,故最終權重張量 \(W\) 為四維。
再假設偏置參數為 \(U\) ,則可以將全連接層表示為:
為了方便表示,我們對下標 \((k,l)\) 進行重新索引,使得 \(k = i + a, l = j + b\),則可以得到重排的權重矩陣 \([V]_{i,j,a,b} = [W]_{i,j,i+a,j+b}\)
即上述可表述為公式:

1.平移不變性
現在引入平移不變性,即檢測對象在輸入 \(X\)中的平移應該僅導致隱藏表示 \(H\) 中的平移。簡言之,無須每個像素都要獨享一個二維權值張量,所有像素共享同一個即可,故權重張量降為二維即可。此時式子可以簡化為:
這就是所謂卷積,使用系數 \([V]_{a,b}\) 對 \((i+a, j+b)\) 附近的像素 \([H]_{i,j}\) 進行加權得到。
2.局部性
對于上述的 \(a, b\) 不應該取太大,即范圍不應太大,至少不應該是全圖。故可將 \(|a| > \Delta,|b| > \Delta\) 的范圍設置為0(即不考慮范圍外的影響)。故可將式子重寫為:
具體如圖所示


浙公網安備 33010602011771號