音頻處理中的尺度--Bark尺度與Mel尺度
由于人耳對(duì)聲音的感知(如:頻率、音調(diào))是非線性的,為了對(duì)聲音的感知進(jìn)行度量,產(chǎn)生了一系列的尺度(如:十二平均律),這里重點(diǎn)說下Bark尺度與Mel尺度。剛開始的時(shí)候,我自己也沒弄明白這兩個(gè)尺度的區(qū)別。后來才逐漸的明白他們的思考出發(fā)點(diǎn),這里簡(jiǎn)單分享出來。
Bark(巴克)頻率尺度是以Hz為單位,把頻率映射到心理聲學(xué)的24個(gè)臨界頻帶上,第25個(gè)臨界頻帶占據(jù)約:16K~20kHz的頻率,1個(gè)臨界頻帶的寬度等于一個(gè)Bark,簡(jiǎn)單的說,Bark尺度是把物理頻率轉(zhuǎn)換到心理聲學(xué)的頻率。Bark尺度頻率的中心頻率與臨界帶寬邊界頻率如下表所示:
| 臨界頻帶 | 頻率/Hz | ||
| Bark頻帶 | 中心頻率 | 下界頻率 | 上界頻率 |
| 1 | 50 | 0 | 100 |
| 2 | 150 | 100 | 200 |
| 3 | 250 | 200 | 300 |
| 4 | 350 | 300 | 400 |
| 5 | 450 | 400 | 510 |
| 6 | 570 | 510 | 630 |
| 7 | 700 | 630 | 770 |
| 8 | 840 | 770 | 920 |
| 9 | 1000 | 920 | 1080 |
| 10 | 1170 | 1080 | 1270 |
| 11 | 1370 | 1270 | 1480 |
| 12 | 1600 | 1480 | 1720 |
| 13 | 1850 | 1720 | 2000 |
| 14 | 2150 | 2000 | 2320 |
| 15 | 2500 | 2320 | 2700 |
| 16 | 2900 | 2700 | 3150 |
| 17 | 3400 | 3150 | 3700 |
| 18 | 4000 | 3700 | 4400 |
| 19 | 4800 | 4400 | 5300 |
| 20 | 5800 | 5300 | 6400 |
| 21 | 7000 | 6400 | 7700 |
| 22 | 8500 | 7700 | 9500 |
| 23 | 10500 | 9500 | 12000 |
| 24 | 13500 | 12000 | 15500 |
| 25 | 18775 | 15500 | 22050 |
我發(fā)現(xiàn)有不少式子試圖對(duì)上表進(jìn)行建模,用的比較多的一個(gè)式子是(Zwicker,Terhardt 1980):
\[B = 13{\tan ^{ - 1}}\left( {\frac{{0.76f}}{{1000}}} \right) + 3.5{\tan ^{ - 1}}{\left( {\frac{f}{{7500}}} \right)^2}\]
上式中頻率f代表中心頻率,我把上面的式子在Matlab中代入進(jìn)行計(jì)算,發(fā)現(xiàn)前5個(gè)Bark頻帶與計(jì)算出來的出入比較大,尚不知道這是什么原因。
Mel頻率尺度也是一種頻率映射感知模型,它描述的是音高感知的非線性映射,函數(shù)表示如下:
\[m = 1127.01048{\log _e}\left( {1 + \frac{f}{{700}}} \right)\]
要注意的一點(diǎn)是,這里的頻率f單位是1kHz,也就是說,1kHz是Mel頻率與以赫茲為單位的真實(shí)頻率之間的參考點(diǎn)(1kHz=1000mel),另一方面,Mel一詞來源于音樂術(shù)語melody,是旋律的頻率分量與與音高感知之間距離的度量。
posted on 2016-05-03 08:37 愛酷媒 閱讀(6595) 評(píng)論(0) 收藏 舉報(bào)
浙公網(wǎng)安備 33010602011771號(hào)