VoIP的話音質(zhì)量測量方法

嚴重的呼叫質(zhì)量和性能管理問題會影響VoIP (Voice over IP)系統(tǒng)的運作。網(wǎng)絡管理員等人需要理解基本的呼叫質(zhì)量測量技術才能很好地監(jiān)測、管理和診斷在VoIP中出現(xiàn)的這些問題。本文介紹了常用的幾種呼叫質(zhì)量測量方法，聯(lián)系實際對這些方法進行了解釋，并描述了VoIP網(wǎng)絡服務中的用戶可接受的話音質(zhì)量。
VoIP呼叫質(zhì)量會受噪聲、畸變、信號幅度過高或過低、回聲、通話間隙和許多其他問題的影響。

在測量呼叫質(zhì)量時，需要研究三類基本的服務質(zhì)量：

1. 收聽質(zhì)量--指用戶對呼叫過程中所聽到的聲音質(zhì)量的評價。
2. 會話質(zhì)量--指用戶在整個通話過程中基于收聽質(zhì)量和會話能力而對呼叫作出的評價，包括回音和延遲等可能影響通話的相關問題。
3. 傳輸質(zhì)量--指用于承載話音信號的網(wǎng)絡連接的質(zhì)量。傳輸質(zhì)量測量是與細節(jié)呼叫質(zhì)量測量相對的一種網(wǎng)絡服務質(zhì)量測量。
呼叫質(zhì)量測量的目的是通過主觀或客觀的測量方法，即通過人為的測量項目或基于計算機的測量工具，對一種或多種以上的呼叫質(zhì)量類別給出一個可信的估計。

主觀收聽質(zhì)量測量

主觀測量是一種久經(jīng)考驗的話音質(zhì)量測量方法，但這種方法成本太高，費時也太長。有一種更廣為人知的主觀類測量方法，叫做絕對種類定級(Absolute Category Rating, ACR)測量。
在ACR測量中，收聽者按照從1到5的5級損傷指標對一系列音頻文件進行分級：
5 非常好
4 好
3 可以
2 較差
1 差
在取得了每個收聽者給出的得分之后，計算所有音頻文件的一般或平均意見得分(Mean Opinion Score, MOS)。為了使ACR測量得到可信的測量結果，接受測量的人數(shù)至少應在16個以上，而且測量應該在一個安靜的環(huán)境下，在可控的條件下完成。
通常，ACR測量的得分隨收聽者的增加而趨向穩(wěn)定。為了降低測量得分的可變性并幫助衡量測量結果，測量中通常會包括一些參考文件，這些文件中包含了“為業(yè)界接受的”MOS得分。
圖1給出了一個由16位收聽者進行的真實的ACR測量的原始投票情況，測量結果給出的MOS得分為2.4。在2分和3分這兩個意見分等級上出現(xiàn)的高票數(shù)與結果2.4分的MOS得分是一致的，但仍有很多收聽者把選票投向了1分和4分。

進行一項主觀測量時，必須認識到這種測量是真正由主觀因素決定的，測量結果可能會隨測量主體的不同而有很大差異。在電話產(chǎn)業(yè)界，廠商們通常提供與CODEC相關的MOS得分，而現(xiàn)實中，這些得分則是從某個主觀測量中選出的一個值。

測量實驗室中通常采用語音平衡文本源(如哈佛句，Harvard Sentences)的高質(zhì)量音頻錄音作為被測VoIP系統(tǒng)的輸入。哈佛句是一組精心選擇的英文短語，其中包含了人們談話中常會出現(xiàn)的語音。哈佛句的錄音是采用高分辨率(16比特)的數(shù)字錄音系統(tǒng)，在安靜的條件下完成的，之后錄音被調(diào)節(jié)成具備標準的信號電平和頻譜特性。語音平衡談話材料的來源是國際電信聯(lián)盟(ITU)和開放語音庫(Open Speech Repository)。

除了ACR測量以外，惡化種類定級(Degradation Category Rating, DCR)和對照種類定級(Comparison Category Rating, CCR)也屬于主觀類測量。其中，DCR考察受損聲音文件的惡化程度，并給出一個DMOS得分。而CCR測量則比較一對文件，給出CMOS得分。

為了區(qū)別收聽得分和會話得分，國際電信聯(lián)盟(ITU)提出了帶S(主觀，Subjective)、O(可觀，Objective)和E (估計，Estimated)后綴的MOS收聽質(zhì)量(MOS-LQ)和MOS會話質(zhì)量(MOS-CQ)這兩個術語。一次ACR測量得到的收聽質(zhì)量得分就是 MOS-LQS。

會話質(zhì)量測量

會話質(zhì)量測量比較復雜，因而也較少使用。在會話測量中，通常會將一群收聽者放在交互式通信的環(huán)境下，并要求他們通過一個電話或VoIP系統(tǒng)完成一項任務。測量人員在系統(tǒng)中加入延遲和回聲等效應，然后調(diào)查測量主體對連接質(zhì)量看法如何。

延遲效應對會話質(zhì)量的影響隨任務不同而有很大差異。對于非交互式的任務而言，幾百毫秒的單向延遲都是可以忍受的；而對交互性較強的任務，哪怕是很短的延遲都可能造成會話困難。

延遲對不同任務影響不同的這種情況就造成在會話呼叫質(zhì)量的解釋上出現(xiàn)問題。例如，兩個相同的VoIP系統(tǒng)連接都會產(chǎn)生300毫秒的單向延遲，但一個系統(tǒng)用于高交互性的商業(yè)談判，而另一個系統(tǒng)則用于朋友間的非正式聊天。那么前一個系統(tǒng)中的用戶可能會覺得呼叫質(zhì)量很差，而后一個系統(tǒng)中的用戶則可能根本注意不到這一延遲。
基于樣本的客觀測量

ITU開發(fā)了P.861(PSQM)和更新的P.862，力圖用成本更低的客觀測量法來做為主觀收聽質(zhì)量測量的補充。采用這些測量技術，可以通過比較送入系統(tǒng)中的一個原始參考文件與輸出的受損文件之間的差異，得到由傳輸系統(tǒng)或CODEC引入的失真。這些技術的初衷雖然是為了CODEC的實驗室測量，但在VoIP網(wǎng)絡測量中也得到了廣泛使用。

P.861和P.862算法將參考信號和受損信號都分成較短的交迭樣本塊，計算每一塊的傅立葉變換系數(shù)，并比較他們的系數(shù)。P.862算法最后給出一個PESQ得分，該得分與MOS的范圍相近，但它并不是MOS的準確映射。新的PESQ-LQ得分更接近收聽質(zhì)量MOS。這些算法都同時要求訪問源文件和輸出文件才能測量后者相對于前者的失真。

2004年，ITU制定了P.563標準，這是一個單端客觀測量算法，能夠只對接收到的音頻流進行操作。P.563測量得到的MOS得分比P.862更廣，要使結果更穩(wěn)定，必須多次測量并對結果進行平均。這一方法并不適合測量個別呼叫，但在測量多個呼叫的服務質(zhì)量時，能夠得到可信的測量結果。

圖3：R因素和用戶意見之間的關系。

這類算法對每一個樣本都要進行大量計算，在測量窄帶話音信號時每秒需處理8,000個樣本，在測量寬帶話音信號時每秒需處理16,000個樣本，處理負荷(相當于每個呼叫流需100MIPS)和對存儲器的要求都很高。因此，這類算法對很多應用而言都并不實際，這時，就應采用基于分組的測量方法。
E 模型和VQmon

VQmon是一種高效的基于E模型的VoIP呼叫質(zhì)量監(jiān)控技術，它能在功耗低于P.861/862/563方法的千分之一的情況下給出呼叫質(zhì)量得分。E模型是歐洲電信標準協(xié)會(ETSI)開發(fā)的，本來用作電信網(wǎng)絡的傳輸規(guī)劃工具，但該模型也在VoIP服務質(zhì)量測量中廣泛使用。

E模型(在ETSI技術報告ETR250中有對其的描述)是在幾個較早的評價模型的基礎之上發(fā)展起來的，在1998年被ITU標準化，成為G.107建議，然后每年更新并修訂。E模型中那些使它能夠用于VoIP服務質(zhì)量監(jiān)控的擴展性能由Telchemy公司開發(fā)，并在ETSI TS 101 329-5 Annex E中被標準化。

采用E模型是為了對傳輸質(zhì)量定級，也就是說，確定包含話音通道的“由口至耳”特性的“R”因素。R因素的取值范圍為0－120，窄帶電話上R因素通常取50－94，而寬帶電話上R取值在50－110。R因素的值可以轉(zhuǎn)換為會話和收聽質(zhì)量MOS得分(MOSCQ and MOS-LQ)的估計值。

E模型基于一個假定，那就是話音質(zhì)量損傷的效果是加性的。基本E模型等式為：

R=Ro-Is-Id-Ie+A

其中： Ro是由噪聲電平和信號響度等決定的基礎因素；Is代表與語音同時出現(xiàn)的信號損傷，包括響度、量化(CODEC)失真和非優(yōu)化側(cè)音電平；Id指滯后于語音的損傷，包括回聲和延遲造成的會話困難；Ie是“設備損傷因素”，指VoIP系統(tǒng)對傳輸信號的影響；Ai是“優(yōu)勢因素”，指用戶在撥打電話時的期望因素。例如移動電話使用起來很方便，因此人們對使用時與通話質(zhì)量相關的問題就比較寬容。

VQmon是E模型的擴展，其中包含了時變的IP網(wǎng)絡損傷效應，它能更準確地估計用戶意見。VQmon中也包含了一些能夠支持寬帶CODEC的擴展。
話音質(zhì)量測量方法的比較
圖2給出了E模型和MOS所生成的R因素之間的關系。ITU G.107中所提供的“官方”映射函數(shù)規(guī)定，4.4的MOS得分對應93的R因素(在典型無損G.711連接，即常規(guī)電話連接情況下)。

近期的ACR主觀測量數(shù)據(jù)顯示，對無損G.711用4.1到4.2的MOS得分來評價更合適。

這與圖中所示“典型ACR”的映射稍有不同。在日本，TTC委員會根據(jù)日本國內(nèi)進行的主觀測量結果開發(fā)了一套R因素到MOS的映射方法。他們給出的得分一直都比美國和歐洲的低，這一部分是因為他們對質(zhì)量和話音傳輸?shù)奈幕斫馀c歐美不同。因此上圖一共給出了三種可能的從R到MOS 的映射：

圖4：典型的呼叫質(zhì)量水平表示。

1. ITU G.107映射；
2. ACR映射；
3. 日本TTC映射；
但當系統(tǒng)中使用了寬帶CODEC后，又引入另一個復雜因素。ACR測量實際上是與某些參考條件有關的，只有1-5這幾個固定的級別。而在寬帶測量中，使用的是同樣的級別，因此當一個窄帶CODEC有4.1的MOS得分時，一個聽起來遠遠優(yōu)于它的寬帶CODEC可能只有3.9的MOS得分。R 因素則不同，它既涵蓋了窄帶也涵蓋了寬帶。因此一個寬帶CODEC的R因素可能有105，而窄帶CODEC的R因素通常只有93。

圖3給出了R因素和認為呼叫好或較好(GoB)、差或較差(PoW)或者早早掛機(TME)的用戶百分比之間的關系。例如，當R因素為60時，超過40%的用戶會認為呼叫質(zhì)量“好”，接近20%的用戶會認為呼叫質(zhì)量“差”，還有大約10%的用戶會早早掛機。

可接受的話音質(zhì)量水平

圖4列出了典型的呼叫質(zhì)量水平表示。通常，當R因素等于或大于80，就代表呼叫質(zhì)量較好。但還有一些關鍵問題需要注意：R因素是一種會話測量方法，因此R因素大于或等于80不僅意味著收聽質(zhì)量好，也意味著延遲小。而MOS(ITU規(guī)定)為4.0則不同，因為這是指MOS-LQ，其中并未涵蓋延遲。也就是說R大于等于80與MOS等于4.0這兩種說法所代表的意義并不一致。為此，Telchemy引入了符號R-LQ和 R-CQ，這樣，R-LQ等于80與MOS等于4.0就具有可比性了。

VoIP (基于因特網(wǎng)協(xié)議的話音通信)

廠商們針對G.729A提出的MOS通常為3.9，這就意味著G.729A無法滿足ITU所規(guī)定的MOS。但事實上，G.729A應用很廣泛，而且似乎用戶的接受度也還不錯。這一問題的產(chǎn)生源自MOS定標，而非CODEC。CODEC的ACR得分應該與一個ACR定標范圍進行比較。例如， “滿意”應該從3.7到4.1，那么MOS值為3.9的G.729A就應在滿意的范圍內(nèi)。

本文小結

在定義呼叫質(zhì)量目標時，必須用語義清晰的術語來表達，即所規(guī)定的是R Factor (R-CQ) 還是MOS-CQ，抑或是MOS-LQ和延遲的綜合質(zhì)量。如果采用的是寬帶或窄帶CODEC，那么為了避免混淆，就必須解釋清楚MOS得分是“窄帶 MOS”還是“寬帶MOS”。

參考文獻：
[1] ETSI TS 101 329-5 QoS Measurement for VoIP
[2] ITU-T G.107 The E Model: A computational model for use in planningI
[3] ITU-T SG12 Contribution D103, Proposed clarification to ?°MOS?± terminology, January 2003
[4] ITU-T SG12 Contribution D105, VQmon Description, January 2003
[5] ITU-T Recommendation P.862 Perceptual Estimation of Speech Quality (PESQ)

posted @ 2014-11-22 23:45 狂師閱讀(2173) 評論(0) 收藏舉報

刷新頁面返回頂部

測試開發(fā)技術

專注于測試開發(fā)技術與AI人工智能領域研究、分享、交流。關注微信公眾號『測試開發(fā)技術』，后臺回復：『資料包』，領福利! ！

VoIP的話音質(zhì)量測量方法

公告

測試開發(fā)技術

專注于測試開發(fā)技術與AI人工智能領域研究、分享、交流。 關注微信公眾號『測試開發(fā)技術』，后臺回復：『資料包』，領福利! ！

VoIP的話音質(zhì)量測量方法

公告

專注于測試開發(fā)技術與AI人工智能領域研究、分享、交流。關注微信公眾號『測試開發(fā)技術』，后臺回復：『資料包』，領福利! ！