dropout 詳解

Dropout出現的原因

具有大量參數的深度神經(jīng)網(wǎng)絡(luò )是非常強大的機器學(xué)習算法。但是，過(guò)度擬合是這種網(wǎng)絡(luò )中的嚴重問(wèn)題。大型網(wǎng)絡(luò )也是使用緩慢，通過(guò)結合許多預測很難處理過(guò)度擬合測試時(shí)不同的大型神經(jīng)網(wǎng)絡(luò )。當訓練數據比較少的時(shí)候,可能是數據采樣噪聲的原因導致在訓練集上表現比較好,但是在測試集上表現不好,造成過(guò)擬合的現象.

基于上述問(wèn)題，Dropout是用于防止過(guò)擬合和提供一種有效近似聯(lián)結指數級不同神經(jīng)網(wǎng)絡(luò )結構的方法。如下圖所示，dropout中的drop指隨機“丟棄”網(wǎng)絡(luò )層中的某些節點(diǎn)，一種簡(jiǎn)單的實(shí)現方式是每一個(gè)節點(diǎn)都有 p 概率被保留。對一個(gè)網(wǎng)絡(luò )使用dropout相當于從網(wǎng)絡(luò )中采樣一個(gè)“變薄”的網(wǎng)絡(luò )，這個(gè)變薄的網(wǎng)絡(luò )包含所有節點(diǎn)（不管是存活還是被丟棄）。因此，一個(gè)有n個(gè)節點(diǎn)的網(wǎng)絡(luò )可以看作擁有$2^n個(gè)“變薄”的網(wǎng)絡(luò )的集合，這些網(wǎng)絡(luò )共享權值，因此總的參數量還是O(n^2)或者更少。對于每一個(gè)訓練樣本，都有一個(gè)“薄網(wǎng)絡(luò )”被采樣訓練，因此訓練一個(gè)使用dropout的網(wǎng)絡(luò )可以看成是在訓練權值共享的$2^n個(gè)“薄網(wǎng)絡(luò )”的集合。

左邊是正常神經(jīng)網(wǎng)絡(luò )隱藏層的神經(jīng)元,右圖是使用了Dropout的隱藏層神經(jīng)元,虛線(xiàn)部分是隨機隱藏了的神經(jīng)元.

DropOut 工作流程

訓練階段

對于如下網(wǎng)絡(luò )的訓練流程一般是：把輸入x通過(guò)網(wǎng)絡(luò )前向傳播然后把誤差反向傳播，網(wǎng)絡(luò )進(jìn)行學(xué)習后輸出y。

對于使用了dropout的網(wǎng)絡(luò )如下:

以 1?p 的概率臨時(shí)“丟棄”（p的概率保留）網(wǎng)絡(luò )中的隱層神經(jīng)單元.

把輸入x通過(guò)修改后的網(wǎng)絡(luò )前向傳播，然后把得到的損失結果通過(guò)修改的網(wǎng)絡(luò )反向傳播。一小批訓練樣本執行完這個(gè)過(guò)程后，在沒(méi)有被刪除的神經(jīng)元上按照隨機梯度下降法更新對應的參數（w，b）。
恢復被刪掉的神經(jīng)元（此時(shí)被刪除的神經(jīng)元保持原樣，而沒(méi)有被刪除的神經(jīng)元已經(jīng)有所更新）
重復上述步驟1-3,知道網(wǎng)絡(luò )結束.

測試階段

顯式地將訓練中指數級的“薄網(wǎng)絡(luò )”中求平均是不現實(shí)的。實(shí)踐中的思路是這樣：在測試時(shí)使用一個(gè)不使用dropout的網(wǎng)絡(luò )，該網(wǎng)絡(luò )的權值是訓練時(shí)的網(wǎng)絡(luò )權值的縮小版，即，如果一個(gè)隱層單元在訓練過(guò)程中以概率p被保留，那么該單元的輸出權重在測試時(shí)乘以p（如下圖所示）。這樣共享權值的$2^n$個(gè)訓練網(wǎng)絡(luò )就可以在測試時(shí)近似聯(lián)結成一個(gè)網(wǎng)絡(luò )，因此能有效降低泛化誤差。

數學(xué)公式表示

考慮一個(gè)擁有L層隱層的神經(jīng)網(wǎng)絡(luò )，l∈{1,…,L}為隱層的索引，z(l) 表示l層的輸入向量，y(l) 表示 l 層的輸出（y(0)=x 為輸入），W(l),b(l) 分別為 l 層的權值和偏置。標準的神經(jīng)網(wǎng)絡(luò )的前向傳播可以描述為如下（對于l∈0,…,L?1 和任意隱層單元i）：

z_i^{(l+1)} = w_i^{l+1} y^l + b_i^{(l+1)}

y_i^{(l+1)} = f(z_i^{(l+1)})

其中f 為任意激活函數，例如f(x)=1/(1+exp(?x))。
使用了dropout 之后前像傳播過(guò)程如下:

r_j^{(l)} \sim Bernoulli(p)

\hat{y}^{(l)} = r^{(l)} * y^{(l)}

z_i^{(l+1)} = w_i^{l+1} \hat{y}^{(l)}+ b_i^{(l+1)}

y_i^{(l+1)} = f(z_i^{(l+1)})

其中?代表element-wise相乘，對任意層l，r(l)從伯努利分布中采樣，其值有p概率為1，采樣后與該層的輸出y^{(l)}進(jìn)行element-wise乘積，產(chǎn)生一個(gè)“變薄”的網(wǎng)絡(luò )層的輸出\hat{y}^{(l)}，該輸出隨即用作下一層的輸入。該過(guò)程應用在網(wǎng)絡(luò )中的每一層。在test階段，網(wǎng)絡(luò )的權值按W^{(l)}_{test}=pW_{(l)}比例產(chǎn)生。

Dropout可以解決過(guò)擬合原因

降低神經(jīng)元之間復雜的共適應關(guān)系：神經(jīng)網(wǎng)絡(luò )（尤其是深度神經(jīng)網(wǎng)絡(luò )）在訓練過(guò)程中，神經(jīng)元之間會(huì )產(chǎn)生復雜的共適應關(guān)系，但是我們更希望的是神經(jīng)元能夠自己表達出數據中的共同本質(zhì)特征。使用dropout后，兩個(gè)神經(jīng)元不一定每次都出現在同一個(gè)網(wǎng)絡(luò )中，使得網(wǎng)絡(luò )中的權值更新不再依賴(lài)于具有固定關(guān)系的神經(jīng)元節點(diǎn)之間的共同作用，使得網(wǎng)絡(luò )更加robust。

模型平均：Dropout使得神經(jīng)網(wǎng)絡(luò )的訓練效果近乎于對$2^n$個(gè)子網(wǎng)絡(luò )的平均，有可能使得一些“相反”的擬合互相抵消，從而緩解過(guò)擬合的情況。

參考文檔

Dropout:A Simple Way to Prevent Neural Networks from Overfitting.

# 機器學(xué)習

標題：《dropout 詳解》
作者：zeekling
提示：轉載請注明文章轉載自個(gè)人博客：浪浪山旁那個(gè)村

亚洲成a人片在线观看69,中文字幕免费无线观看,日韩精品无码一区二区三区四区,92精品国产自产在线观看直播,亚洲精品无码不卡在线观看屁,亚洲成av人片在www色猫咪