CNN卷積神經(jīng)
1.概念
CNN -> 深度學(xué)習(xí)模型,主要用于圖像識(shí)別、語(yǔ)音識(shí)別、自然語(yǔ)言處理等。
2.卷積操作
1.滑動(dòng)卷積核(一個(gè)小矩陣、濾波器)對(duì)輸入圖像進(jìn)行特征提取
2.滑動(dòng)在圖像上,對(duì)每個(gè)位置的像素進(jìn)行加權(quán)求和 -> 新的輸出矩陣(特征圖)
3.通過(guò)不同的卷積可以提取不同的特征,比如邊緣、角點(diǎn)、紋理等
4.可以通過(guò)多個(gè)卷積層實(shí)現(xiàn)卷積操作,每一層包含多個(gè)卷積核,提取不同的特征
3.池化操作
1.CNN中卷積操作通常是與池化(Pooling)操作結(jié)合使用
2.池化操作可以對(duì)特征圖進(jìn)行降采樣 -> 減少特征圖大小,提高模型魯棒性
3.多次卷積、池化,CNN可以逐層提取圖像的高級(jí)特征,從而實(shí)現(xiàn)圖像的分類(lèi)、檢測(cè)、分割等任務(wù)
4。多次卷積得到的特征圖可能尺寸很大,導(dǎo)致后續(xù)計(jì)算量很大,也會(huì)增加過(guò)擬合風(fēng)險(xiǎn)
5.池化操作可以對(duì)特征圖進(jìn)行降采樣,即將特征圖中某些像素合并成一個(gè)像素,從而縮小特征圖大小
6.例如,最大池化就是在一個(gè)固定大小的窗口內(nèi),選取最大值作為新的像素值,減少尺寸,降低后續(xù)計(jì)算復(fù)雜度
7.總之,池化操作可以對(duì)特征值進(jìn)行降采樣,從而減少特征圖大小,提高模型魯棒性,使得卷積神經(jīng)網(wǎng)絡(luò)具有更好的計(jì)算效率和泛化能力
注釋?zhuān)?/h3>
1.魯棒性
1.魯棒性 -> 一個(gè)系統(tǒng)或模型對(duì)輸入數(shù)據(jù)變化的適應(yīng)能力
2.在機(jī)器學(xué)習(xí)領(lǐng)域,魯棒性通常指模型對(duì)于噪聲、異常值、數(shù)據(jù)缺失、對(duì)抗性攻擊等不同形式的干擾的穩(wěn)健能力
3.魯棒性較強(qiáng)的模型可以在面對(duì)新數(shù)據(jù)時(shí),仍保持良好的性能和預(yù)測(cè)準(zhǔn)確率,不會(huì)受到輸入數(shù)據(jù)的微小變化或異常值的影響,反之,容易受干擾,導(dǎo)致預(yù)測(cè)結(jié)果不準(zhǔn)確或失效。
4.實(shí)際應(yīng)用中,魯棒性是一個(gè)非常重要的因素,真實(shí)場(chǎng)景中,輸入數(shù)據(jù)往往包含各種不同的噪聲、異常值干擾,魯棒性不強(qiáng)的模型容易失效,影響效果。
2.模型過(guò)擬合
1.機(jī)器學(xué)習(xí)模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)非常好,但在測(cè)試數(shù)據(jù)上表現(xiàn)較差的現(xiàn)象,即模型在訓(xùn)練數(shù)據(jù)上過(guò)于追求完美的擬合,無(wú)法泛化到新的數(shù)據(jù)上去
2.原因 -> 模型過(guò)于復(fù)雜或訓(xùn)練數(shù)據(jù)太少,導(dǎo)致模型過(guò)于死記硬背訓(xùn)練數(shù)據(jù),而無(wú)法無(wú)法對(duì)新數(shù)據(jù)有效的預(yù)測(cè)
3.過(guò)擬合模型會(huì)在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)到訓(xùn)練集的噪音和細(xì)節(jié),而忽略真實(shí)數(shù)據(jù)的本質(zhì)特征和規(guī)律,使得模型在新數(shù)據(jù)上預(yù)測(cè)效果變差
4.特點(diǎn) -> 過(guò)于復(fù)雜、過(guò)于細(xì)致、對(duì)訓(xùn)練集中異常值和噪聲過(guò)于敏感等
2.處理方法 -> 增加數(shù)據(jù)量,降低模型死記硬背的風(fēng)險(xiǎn)
采用正則化方法,如L1, L2正則化等
采用交叉驗(yàn)證法,選擇合適的模型和參數(shù)
降低模型復(fù)雜度,采用更簡(jiǎn)單的模型結(jié)構(gòu)
數(shù)據(jù)增強(qiáng),如旋轉(zhuǎn)、翻轉(zhuǎn)、縮放等
3.正則化
1.在機(jī)器學(xué)習(xí)中,其是一種常用技術(shù),用于減少模型的過(guò)擬合風(fēng)險(xiǎn)
2.基本思想 -> 在損失函數(shù)中增加一個(gè)正則化項(xiàng),以懲罰模型參數(shù)大小,這樣可以強(qiáng)制模型參數(shù)更加接近0,從而降低模型復(fù)雜度,減少過(guò)擬合風(fēng)險(xiǎn)
3.常用方法 -> L1正則化,在損失函數(shù)中增加模型參數(shù)的L1范數(shù),即模型參數(shù)絕對(duì)值之和,其會(huì)使模型參數(shù)中一部分變?yōu)?,從而實(shí)現(xiàn)特征選擇效果
即通過(guò)減少無(wú)用特征,提高模型的泛化能力
L2正則化,在損失函數(shù)中添加模型參數(shù)的L2范數(shù),即模型參數(shù)的平方和,L2正則化會(huì)使得模型參數(shù)值變得較小,但不會(huì)使其變?yōu)?,從而保留了所有特征,避免了特征選擇效果,其還可以防止模型參數(shù)過(guò)大,避免梯度爆炸問(wèn)題
4.全連接
1.全連接層,也稱(chēng)作稠密連接層,是神經(jīng)網(wǎng)絡(luò)中最基本的一種層類(lèi)型。
2.它的作用是將前一層的所有節(jié)點(diǎn)都連接到當(dāng)前層的每一個(gè)節(jié)點(diǎn)上。全連接層通常用于對(duì)圖像、語(yǔ)音、文本等高維數(shù)據(jù)進(jìn)行分類(lèi)或回歸預(yù)測(cè)。
3.在全連接層中,每個(gè)節(jié)點(diǎn)與前一層中所有節(jié)點(diǎn)相互連接,每個(gè)連接都有一個(gè)權(quán)重。這些權(quán)重是模型的學(xué)習(xí)參數(shù),通過(guò)反向傳播算法來(lái)更新。每個(gè)節(jié)點(diǎn)的輸出值是它與前一層所有節(jié)點(diǎn)的加權(quán)和,加權(quán)系數(shù)即為權(quán)重值。
5.全連接層的輸出可以進(jìn)一步輸入到下一層,并繼續(xù)進(jìn)行計(jì)算。
6.全連接層通常具有很強(qiáng)的擬合能力,可以學(xué)習(xí)到輸入數(shù)據(jù)的復(fù)雜非線性特征。
7.但是在神經(jīng)網(wǎng)絡(luò)較深或輸入數(shù)據(jù)較大時(shí),全連接層需要的參數(shù)數(shù)量非常龐大,容易導(dǎo)致過(guò)擬合和計(jì)算量過(guò)大的問(wèn)題,因此在實(shí)際應(yīng)用中,通常會(huì)和其他層類(lèi)型(如卷積層、池化層等)配合使用,以減少參數(shù)數(shù)量和計(jì)算復(fù)雜度。
question
1.為什么要將模型參數(shù)調(diào)小
降低模型復(fù)雜度,避免過(guò)擬合風(fēng)險(xiǎn),機(jī)器學(xué)習(xí)中模型復(fù)雜度是由模型參數(shù)數(shù)量和取值大小決定,太復(fù)雜容易過(guò)擬合
2.模型過(guò)擬合是數(shù)據(jù)少還是數(shù)據(jù)多了
通常是在數(shù)據(jù)較少的情況下出現(xiàn),數(shù)據(jù)增多時(shí),模型的泛化能力會(huì)提高,過(guò)擬合風(fēng)險(xiǎn)會(huì)降低,更多數(shù)據(jù)可以提供更多信息,更好理解數(shù)據(jù)本質(zhì)歸律
但當(dāng)模型數(shù)據(jù)量非常大,也可能出現(xiàn)過(guò)擬合問(wèn)題,此時(shí)模型復(fù)雜度可能很高,要采取一些方法避免過(guò)擬合
3.數(shù)據(jù)欠缺
指數(shù)據(jù)中缺失了一些重要信息,導(dǎo)致模型無(wú)法正確學(xué)習(xí)數(shù)據(jù)的本質(zhì),會(huì)出現(xiàn)欠擬合,既無(wú)法在訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)上都表現(xiàn)良好,通常因?yàn)槟P蛷?fù)雜度過(guò)低或特征提取不足等原因?qū)е?/p>
4.全局最大池化為什么選第二維度,不選第一維度
在卷積神經(jīng)網(wǎng)絡(luò)中,第一維度通常是批次維度,表示一次訓(xùn)練或推斷中處理的樣本數(shù)。如果選擇第一維度進(jìn)行最大值的計(jì)算,那么將對(duì)每個(gè)樣本中所有特征圖的所有像素值進(jìn)行比較,從而得到一個(gè)大小為 [batch_size, 1, num_filters] 的結(jié)果張量。這個(gè)結(jié)果張量并不包含對(duì)特征圖的提取和比較,只是對(duì)每個(gè)樣本進(jìn)行了匯總,因此不能提供對(duì)每個(gè)特征圖的最重要的特征的描述。
此外,第一維度是批次維度,對(duì)于每個(gè)樣本,它們所包含的有效信息可能是不同的,因此在第一維度進(jìn)行全局最大池化操作可能會(huì)導(dǎo)致信息的混雜,影響模型的性能。
因此,在卷積神經(jīng)網(wǎng)絡(luò)中,第二個(gè)維度通常是特征圖維度(feature map dimension),表示每個(gè)卷積核在卷積后得到的特征圖。在進(jìn)行全局最大池化操作時(shí),選擇第二維度進(jìn)行最大值的計(jì)算,可以對(duì)每個(gè)特征圖提取最重要的特征,而忽略其它不重要的特征。這樣可以更精確地描述每個(gè)特征圖的特征,提高模型的性能。同時(shí),選擇特征圖的維度進(jìn)行最大值的計(jì)算也可以使模型對(duì)輸入數(shù)據(jù)的位置不變性提高,即不管輸入數(shù)據(jù)的位置如何變化,模型都可以提取出相同的特征,進(jìn)一步提高模型的泛化能力。因此,在卷積神經(jīng)網(wǎng)絡(luò)中,通常選擇特征圖的維度(第二個(gè)維度)進(jìn)行全局最大池化操作。
5.為什么不管輸入數(shù)據(jù)的位置如何變化,模型都可以提取出相同的特征
在卷積神經(jīng)網(wǎng)絡(luò)中,通過(guò)使用卷積核對(duì)輸入數(shù)據(jù)進(jìn)行卷積操作,可以提取出輸入數(shù)據(jù)中的局部特征。卷積操作是一種局部操作,它只考慮輸入數(shù)據(jù)中的局部區(qū)域,而不考慮這個(gè)區(qū)域在整體中的位置。因此,即使輸入數(shù)據(jù)的位置發(fā)生變化,卷積操作仍然能夠提取相同的局部特征。在全局最大池化操作中,選擇特征圖的維度進(jìn)行最大值的計(jì)算,可以對(duì)每個(gè)特征圖提取最重要的特征,而忽略其它不重要的特征。這樣可以更加精確地描述每個(gè)特征圖的特征,進(jìn)一步提高模型的泛化能力,使模型對(duì)于輸入數(shù)據(jù)的位置變化更加魯棒。因此,無(wú)論輸入數(shù)據(jù)的位置如何變化,模型都可以提取出相同的特征,從而保證模型的性能。
6.超參數(shù)是什么意思
超參數(shù)(Hyperparameters)是指在機(jī)器學(xué)習(xí)算法中,需要手動(dòng)設(shè)置的參數(shù),這些參數(shù)不會(huì)通過(guò)訓(xùn)練數(shù)據(jù)自動(dòng)學(xué)習(xí)得到,而需要通過(guò)調(diào)試和實(shí)驗(yàn)等方式進(jìn)行選擇和優(yōu)化。超參數(shù)包括學(xué)習(xí)率、正則化參數(shù)、批次大小、迭代次數(shù)、網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化器等等,這些參數(shù)的不同值會(huì)影響模型的訓(xùn)練和預(yù)測(cè)效果。 在機(jī)器學(xué)習(xí)中,超參數(shù)的選擇對(duì)模型的性能和泛化能力都有很大的影響,因此需要仔細(xì)地進(jìn)行調(diào)試和優(yōu)化。通常的方法是使用網(wǎng)格搜索、隨機(jī)搜索、貝葉斯優(yōu)化等技術(shù)來(lái)搜索超參數(shù)的最優(yōu)值。此外,還可以通過(guò)經(jīng)驗(yàn)和領(lǐng)域知識(shí)等手段來(lái)指定超參數(shù)的初始值,從而加速搜索的過(guò)程。
7.混淆矩陣
混淆矩陣(Confusion Matrix)是用來(lái)評(píng)估分類(lèi)模型性能的一種矩陣,通常用于監(jiān)督學(xué)習(xí)中二分類(lèi)或多分類(lèi)問(wèn)題。混淆矩陣的橫軸表示實(shí)際類(lèi)別,縱軸表示預(yù)測(cè)類(lèi)別,矩陣中的每個(gè)元素代表了某個(gè)類(lèi)別實(shí)際樣本和預(yù)測(cè)樣本的數(shù)量。
看分為幾類(lèi),如果模型是分為n類(lèi),則生成的矩陣的維度是\(n*n\), 一般是真假2類(lèi),
真真,真假,
假真,假假

浙公網(wǎng)安備 33010602011771號(hào)