概率論沉思錄:初等假設(shè)檢驗(yàn)
導(dǎo)言
我認(rèn)為思想是運(yùn)動(dòng)的,而論證是驅(qū)動(dòng)思想到某個(gè)方向的動(dòng)力。
——約翰·克雷格(John Craig, 1699)
我們?cè)谏弦黄┛?a href="http://www.rzrgm.cn/orion-orion/p/18519155" target="_blank">《概率論沉思錄:初等抽樣論》中介紹了傳統(tǒng)的抽樣理論。其中,我們導(dǎo)出了幾種經(jīng)典的抽樣分布,也即給定關(guān)于所觀察現(xiàn)象的假設(shè)\(H\),數(shù)據(jù)\(D\)的概率分布\(p(D\mid H)\)。在上一篇博客中提到的伯努利壇子模型中,假設(shè)\(H\)即壇子的內(nèi)容,數(shù)據(jù)\(D\)即重復(fù)抽球所生成的紅球和白球序列。但正如我們我們?cè)谏弦黄┛偷哪┪菜觯瑤缀跛袑?shí)際的科學(xué)推斷問(wèn)題都處在相反的使用場(chǎng)景:我們已知數(shù)據(jù)\(D\),希望確定假設(shè)\(H\)。更一般地說(shuō),已知數(shù)據(jù)\(D\),如何求概率分布\(p(H_1\mid D), p(H_2\mid D), \cdots\),以指出給定假設(shè)\(\{H_1, H_2, \cdots\}\)中哪一個(gè)成立?
例如,我們的假設(shè)可能是對(duì)生成數(shù)據(jù)的物理機(jī)制的各種推斷。但是從根本上講,物理因果關(guān)系不是問(wèn)題的必要組成部分,重要的只是假設(shè)和數(shù)據(jù)之間有某種邏輯關(guān)系。我們將這類(lèi)問(wèn)題稱(chēng)為假設(shè)檢驗(yàn)(hypothesis testing)。
注 本書(shū)[1][2]采用貝葉斯派的視角,參數(shù)估計(jì)的過(guò)程實(shí)際上就是在進(jìn)行假設(shè)檢驗(yàn)了。因此,接下來(lái)講的假設(shè)檢驗(yàn)將與頻率派的假設(shè)檢驗(yàn)不太一樣。事實(shí)上,貝葉斯派的假設(shè)檢驗(yàn)不需要概率之外的特定工具(ad hoc devices),而頻率派需要。
1 科學(xué)推斷的基本原理
首先,我們引入先驗(yàn)概率的概念。除了與當(dāng)前問(wèn)題有關(guān)的新信息或數(shù)據(jù)\(D\)之外,我們用\(X\)來(lái)表示機(jī)器人幾乎總是會(huì)擁有的其它信息。這至少包括它從離開(kāi)工廠(chǎng)到收到當(dāng)前問(wèn)題為止的所有過(guò)去經(jīng)驗(yàn)。對(duì)于機(jī)器人來(lái)說(shuō),所有概率至少要以\(X\)為條件。我們稱(chēng)僅以\(X\)為條件的概率\(P(A\mid X)\)為先驗(yàn)概率(prior probability)。需要注意的是,“先驗(yàn)”一詞并不一定意味著時(shí)間上更早,這種區(qū)別純粹是邏輯上的。根據(jù)定義,除了當(dāng)前問(wèn)題的直接數(shù)據(jù)\(D\)之外的任何其它信息都是“先驗(yàn)信息”。
注 還需要指出的是,伊曼努爾·康德(Immanuel Kant)引入a-priori[3]一詞來(lái)表示可以獨(dú)立于經(jīng)驗(yàn)而知道真假的命題,而我們這里使用的“先驗(yàn)信息”不表示這種意思。\(X\)只簡(jiǎn)單地表示機(jī)器人擁有的我們所稱(chēng)“數(shù)據(jù)”之外的其它信息。
引入先驗(yàn)概率后,再加上我們?cè)诓┛?a href="http://www.rzrgm.cn/orion-orion/p/18472437" target="_blank">《概率論沉思錄:定量規(guī)則》中提到的乘法規(guī)則,我們就可以著手解決假設(shè)檢驗(yàn)問(wèn)題了。現(xiàn)做如下命題定義:
- \(X\):先驗(yàn)信息。
- \(H\):待檢驗(yàn)的假設(shè)。
- \(D\):數(shù)據(jù)。
根據(jù)乘法規(guī)則,我們有:
在上一篇博客《概率論沉思錄:初等抽樣論》中,我們并不需要特別注意先驗(yàn)信息\(X\),因?yàn)樗懈怕识家?span id="w0obha2h00" class="math inline">\(H\)為條件,所以我們可以隱含地假設(shè),定義問(wèn)題的一般先驗(yàn)信息已經(jīng)包含在\(H\)中。但是現(xiàn)在,所求的這些概率不再至少以\(H\)為條件,而是至少以\(X\)為條件,因此需要為它們使用不同的符號(hào)。
考慮上式的最后一個(gè)等式,進(jìn)行移項(xiàng)后可以將\(P(H\mid DX)\)表示為\(P(H\mid X)\)乘上一個(gè)對(duì)\(H\)先驗(yàn)概率的調(diào)整因子:
關(guān)于上述等式的各項(xiàng),我們做以下的名詞約定:
- \(P(H\mid DX)\):稱(chēng)為后驗(yàn)概率(posterior probability)。同樣需要注意的是,這僅意味著“在邏輯上處在特定推理鏈的后面”,而不一定“時(shí)間上更晚”。一個(gè)人的先驗(yàn)概率可能是另一個(gè)人的后驗(yàn)概率。實(shí)際上只有一種概率,我們使用不同的名稱(chēng)僅指組織計(jì)算的特定方式。
- \(P(D\mid HX)\):稱(chēng)為似然(likelihood),記作\(L(H)\)。可以看出\(P(D\mid HX)\)是我們?cè)谏弦黄┛?a href="http://www.rzrgm.cn/orion-orion/p/18519155" target="_blank">《概率論沉思錄:初等抽樣論》中介紹的抽樣分布,它在固定\(H\)時(shí)依賴(lài)于\(D\)。但是在這篇博客中,我們將根據(jù)不同的假設(shè)\(\{H, H^{\prime}, \cdots\}\)考察固定的數(shù)據(jù)集\(D\),當(dāng)固定\(D\)考察\(P(D\mid HX)\)對(duì)\(H\)的依賴(lài)時(shí),我們稱(chēng)其為“似然”。似然\(L(H)\)本身并不是\(H\)的概率。它是一個(gè)無(wú)量綱的數(shù)值函數(shù)。當(dāng)與\(H\)的先驗(yàn)概率和歸一化因子相乘時(shí),它可以成為概率。
- \(P(D\mid X)\):稱(chēng)為歸一化因子。注意,很多文獻(xiàn)和教材將這里的歸一化因子稱(chēng)為“證據(jù)”,但“證據(jù)”在本書(shū)中已經(jīng)被用于定義其它的東西,故在此說(shuō)明一下。
對(duì)于許多科學(xué)推斷問(wèn)題,式\((1)\)指出了需要計(jì)算哪些概率才能判斷我們的全部證據(jù)證明了哪些結(jié)論是合情的。如果\(P(H\mid DX)\)非常接近1(或0),那么我們可以得出結(jié)論:\(H\)非常可能為真(或假),并采取相應(yīng)的行動(dòng)。但是,如果\(P(H\mid DX)\)距\(1/2\)不遠(yuǎn),則機(jī)器人會(huì)警告我們可用的證據(jù)不足以證明任何可靠的結(jié)論,我們需要獲得更多更好的證據(jù)。
2 二元假設(shè)檢驗(yàn)
最簡(jiǎn)單的假設(shè)檢驗(yàn)問(wèn)題只有兩個(gè)假設(shè)要檢驗(yàn),并且只有兩種可能的結(jié)果。首先,我們使式\((1)\)變成這種二元情形。它給出了\(H\)為真的概率;對(duì)于\(H\)為假的概率,我們同樣可以寫(xiě)出
取兩個(gè)等式的比值,得到
這里我們擁有的量,即\(H\)為真的概率與它為假的概率之比,我們稱(chēng)其為命題\(H\)的 “幾率”(odds)。
注 odds在賭博的場(chǎng)景中一般翻譯成“賠率”,在本書(shū)中它只是用作\(p/(1 - p)\)的代名詞,是概率的單調(diào)函數(shù)。本書(shū)中都翻譯成幾率。
定義\(O(H\mid DX)\equiv \frac{P(H\mid DX)}{P(\overline{H}\mid DX)}\),我們可以將上式寫(xiě)為:
可見(jiàn)\(H\)的后驗(yàn)幾率等于\(H\)的先驗(yàn)幾率乘以一個(gè)叫做似然比的無(wú)量綱因子。
在許多應(yīng)用中,取幾率的對(duì)數(shù)會(huì)更方便,因?yàn)槲覀兛梢岳奂痈黜?xiàng)。我們定義一個(gè)新函數(shù),稱(chēng)為給定\(D\)和\(X\)時(shí)\(H\)的證據(jù)(evidence):
它仍然是概率的單調(diào)函數(shù)。通過(guò)使用底數(shù)\(10\)并將因子\(10\)放在前面,我們現(xiàn)在以分貝(decibels,以下簡(jiǎn)寫(xiě)為\(\text{dB}\)) 為單位來(lái)衡量證據(jù)。在給定\(D\)的情況下,\(H\)的證據(jù)等于\(H\)的先驗(yàn)證據(jù)加上通過(guò)計(jì)算下式最后一項(xiàng)中的對(duì)數(shù)似然所得到的\(\text{dB}\)數(shù)量:
現(xiàn)在假設(shè)這個(gè)新信息\(D\)實(shí)際上包含幾個(gè)不同的命題:\(D = D_1 D_2 D_3 \cdots\)。那么,應(yīng)用乘法規(guī)則有:\(\frac{P(D\mid HX)}{P(D\mid \overline{H}X)} = \frac{P(D_1\mid HX)}{P(D_1\mid \overline{H}X)}\cdot \frac{P(D_2\mid D_1HX)}{P(D_2\mid D_1\overline{H}X)}\cdot \cdots\)。但在許多情況下,獲得\(D_2\)的概率不受關(guān)于\(D_1\)的知識(shí)的影響,即\(P(D_2\mid D_1HX)=P(D_2\mid HX)\),也即機(jī)器人分配給\(D_1\)和\(D_2\)的概率是獨(dú)立(independent) 的。再次重申:我們關(guān)注的是邏輯獨(dú)立性,而不是物理的因果獨(dú)立性。通常,隨著機(jī)器人的知識(shí)狀態(tài)(以\(H\)和\(X\)表示)發(fā)生變化,以它們?yōu)闂l件的概率可能會(huì)從相互獨(dú)立的變?yōu)橄嗷ヒ蕾?lài)的,反之亦然。但是事件的真實(shí)屬性保持不變。
如果在給定\(HX\)的條件下,數(shù)據(jù)\(D_1, D_2, D_3, \cdots\)的概率是邏輯獨(dú)立的,則似然比可以展開(kāi)為
其中的和式取遍我們獲得的所有額外信息。
為了對(duì)這里的數(shù)值有直觀的認(rèn)識(shí),我們可以將證據(jù)(\(e\))、幾率(\(O\))和概率(\(p\))構(gòu)建成如下的表:
| 證據(jù) (\(e\)) | 幾率 (\(O\)) | 概率 \((p)\) |
|---|---|---|
| \(0\) | \(1:1\) | \(1/2\) |
| \(3\) | \(2:1\) | \(2/3\) |
| \(6\) | \(4:1\) | \(4/5\) |
| \(10\) | \(10:1\) | \(10/11\) |
| \(20\) | \(100:1\) | \(100/101\) |
| \(30\) | \(1000:1\) | \(0.999\) |
| \(40\) | \(10000: 1\) | \(0.9999\) |
| \(-e\) | \(1/O\) | \(1 - p\) |
進(jìn)一步繪制成如下所示的圖:
從上面的圖和表中我們可以明顯地看出為什么以分貝(\(\text{dB}\))為單位給出證據(jù)非常有力。當(dāng)概率接近\(1\)或\(0\)時(shí),我們的直覺(jué)很差。對(duì)我們來(lái)說(shuō),\(0.999\)和\(0.9999\)的概率差別沒(méi)多大意義,但是\(30\text{dB}\)和\(40\text{dB}\)的證據(jù)之間的差別確實(shí)對(duì)我們有明確意義。
現(xiàn)在讓我們將式\((2)\)應(yīng)用于一個(gè)特定的工業(yè)質(zhì)量問(wèn)題中(盡管也可以將其表述為其它問(wèn)題)。假設(shè)先驗(yàn)信息\(X\)如下:
- \(X\):我們有11臺(tái)自動(dòng)機(jī)器,這些機(jī)器將其生產(chǎn)出的小部件輸出到11個(gè)盒子中。該過(guò)程對(duì)應(yīng)于小部件生產(chǎn)的早期階段,因?yàn)橛?0臺(tái)機(jī)器會(huì)生產(chǎn)1/6的壞部件。第11臺(tái)機(jī)器更糟,會(huì)生產(chǎn)1/3的壞部件。每臺(tái)機(jī)器輸出的部件被分別放在一個(gè)未貼標(biāo)簽的盒子中,并存儲(chǔ)在倉(cāng)庫(kù)中。
我們選擇一個(gè)盒子并抽樣檢測(cè)其中的一些小部件,將它們分為“好”和“壞”。我們的目標(biāo)是判斷是否選擇了那個(gè)糟糕機(jī)器對(duì)應(yīng)的盒子,然后判斷是要接受還是拒絕它。
我們把這項(xiàng)工作交給我們的機(jī)器人,看看它是如何工作的。首先,它必須找到待檢驗(yàn)假設(shè)的先驗(yàn)證據(jù)。我們定義以下兩個(gè)假設(shè):
- \(A\):選擇了\(1/3\)的次品率的壞批次。
- \(B\):選擇了\(1/6\)的次品率的好批次。
先驗(yàn)信息\(X\)的定性部分告訴我們,只有兩種可能性。因此,在\(X\)產(chǎn)生的邏輯背景下,兩個(gè)命題是互否的關(guān)系:給定\(X\),我們有\(\overline{A} = B,\quad \overline{B}=A\)。
唯一的定量先驗(yàn)信息是有11臺(tái)機(jī)器,我們不知道是哪臺(tái)機(jī)器制造了我們選擇的批次,因此根據(jù)無(wú)差別原則有\(P(A\mid X)=1/11\),于是
(同理,我們有\(e(B\mid X) = 10\text{dB}\))
在此問(wèn)題中,\(X\)與計(jì)算有關(guān)的唯一信息只是這些數(shù)值,即\(\pm 10 \text{dB}\)。因此,我們沒(méi)必要說(shuō)我們僅在談?wù)?1臺(tái)機(jī)器的問(wèn)題。可能只有一臺(tái)機(jī)器,而這里的先驗(yàn)信息是我們之前使用它的經(jīng)驗(yàn):使用該機(jī)器時(shí),有多少概率遇到好批次/壞批次。在這里,重要的是好批次/壞批次的先驗(yàn)概率。
如果我們?nèi)〕鲆粋€(gè)壞部件,將會(huì)增加這是壞批次的證據(jù);如果我們?nèi)〕鲆粋€(gè)好部件,將會(huì)減少這是壞批次的證據(jù)。我們?cè)O(shè)\(N\)為批次中的部件總數(shù),我們依次抽取\(n\)個(gè)部件進(jìn)行檢測(cè),且假設(shè)\(N\gg n\),也即我們連續(xù)進(jìn)行\(n\)次有放回抽樣,此時(shí)正如我們?cè)谏弦黄┛?a href="http://www.rzrgm.cn/orion-orion/p/18519155" target="_blank">《概率論沉思錄:初等抽樣論》中提到的,超幾何分布的極限形式,即二項(xiàng)分布將適用。設(shè)我們檢測(cè)的\(n\)個(gè)部件中,有\(b\)個(gè)壞部件和\(g\)個(gè)好部件,則我們可以得到這是壞批次的后驗(yàn)證據(jù)為
可見(jiàn),一旦我們使用對(duì)數(shù),計(jì)算是多么簡(jiǎn)單。機(jī)器人的思想以一種非常簡(jiǎn)單直接的方式“朝某個(gè)方向被驅(qū)動(dòng)”。假設(shè)我們抽樣的樣本有80%的小部件是壞的,我們可以將其可視化為如下所示的圖:
現(xiàn)在,我們擁有的只是選擇了壞批次的假設(shè)的概率、幾率或證據(jù)。最終,我們必須做一個(gè)決定:是接受它,還是拒絕它。這時(shí)我們?cè)撛趺崔k呢?當(dāng)然,我們可以事先決定:如果假設(shè)\(A\)的概率達(dá)到一定的值,那么就判定\(A\)為真,如果它下降到某個(gè)值,那么就判定\(A\)為假。
概率論本身不會(huì)告訴我們做出決策的臨界值在哪里。這必須基于價(jià)值判斷:做出錯(cuò)誤決定的后果是什么?進(jìn)行進(jìn)一步檢測(cè)的代價(jià)是什么?這會(huì)將我們帶入決策論領(lǐng)域,我們后面會(huì)進(jìn)行討論。目前比較明顯的是犯第一類(lèi)錯(cuò)誤(接受壞批次)可能比犯另一類(lèi)錯(cuò)誤(拒絕好批次)的后果更為嚴(yán)重。這將對(duì)我們?nèi)绾卧O(shè)置臨界值產(chǎn)生明顯的影響。
因此,我們可以給機(jī)器人一些指示,例如“如果\(A\)的證據(jù)大于\(0\text{dB}\),則拒絕該批次(它很可能是壞的而不是好的)。如果\(A\)的證據(jù)低至\(-13\text{dB}\),則接受該批次(它至少有\(95\%\)的概率是好的)。否則,請(qǐng)繼續(xù)檢測(cè)。”
上述方法是我們的機(jī)器人根據(jù)命題\(A\)的后驗(yàn)概率達(dá)到一定水平后選擇拒絕它或接受它的方法,這個(gè)非常有用且強(qiáng)大的流程在統(tǒng)計(jì)文獻(xiàn)中稱(chēng)為 “序列推斷(sequential inference)”,該術(shù)語(yǔ)表明檢測(cè)次數(shù)不是預(yù)先確定的,而是取決于我們發(fā)現(xiàn)的數(shù)據(jù)值的順序。
3 多重假設(shè)檢驗(yàn)
假定在剛剛討論的序列檢測(cè)過(guò)程中,我們測(cè)試了50個(gè)小部件,結(jié)果每個(gè)小部件都是壞的。根據(jù)式\((3)\),壞批次假設(shè)證據(jù)\(e(A\mid DX)\)的最終結(jié)果是\(140\text{dB}\),這是\(1-10^{-14}\)的概率。但是,我們的常識(shí)會(huì)傾向于拒絕這一結(jié)論,我們會(huì)對(duì)這個(gè)批次中只有\(1/3\)是壞部件產(chǎn)生懷疑。
在當(dāng)前的問(wèn)題中,我們可以使機(jī)器人在看到“太多”壞部件時(shí)對(duì)\(A\)持懷疑態(tài)度,方法是額外提供一個(gè)指出這種可能性的假設(shè)。我們?cè)诩僭O(shè)\(A\):我們有一個(gè)有\(1/3\)壞部件的盒子,假設(shè)\(B\):我們有一個(gè)有\(1/6\)壞部件的盒子的基礎(chǔ)之上,添加第三個(gè)假設(shè)\(C\):制造小部件的機(jī)器完全出了問(wèn)題,會(huì)生產(chǎn)\(99\%\)的壞部件。
現(xiàn)在,我們必須調(diào)整先前的概率,以考慮這種新的可能性。但是我們不希望問(wèn)題的性質(zhì)發(fā)生重大改變。因此,我們讓假設(shè)\(C\)的先驗(yàn)概率\(P(C\mid X)\)非常低,為\(10^{-6}\)(\(-60\text{dB}\))。
我們定義以下三個(gè)假設(shè):
- \(A\):我們選擇了有\(1/3\)壞部件的盒子。
- \(B\):我們選擇了有\(1/6\)壞部件的盒子。
- \(C\):我們選擇了有\(99/100\)壞部件的盒子。
這三個(gè)假設(shè)的初始概率依次為:\(P(A\mid X)=\frac{1}{11}(1 - 10^{-6}), P(B\mid X)=\frac{10}{11}(1 - 10^{-6}), P(C\mid X)=10^{-6}\)。因子\(1 - 10^{-6}\)實(shí)際上可以忽略不計(jì),于是我們有
設(shè)與數(shù)據(jù)有關(guān)的命題\(D\)是“我們抽樣檢測(cè)的\(n\)個(gè)部件中,每個(gè)都是壞部件”,則我們可以得到命題\(C\)的后驗(yàn)證據(jù)為
其中\(P(D\mid CX)=(\frac{99}{100})^{n}\)(我們?nèi)匀患僭O(shè)盒子里的小部件總數(shù)\(N\)比被抽樣檢測(cè)的數(shù)量\(n\)大很多,因此這里近似為無(wú)放回抽樣)。而對(duì)于\(P(D\mid \overline{C}X)\),我們?cè)谟?jì)算的過(guò)程中將會(huì)用到兩次乘法規(guī)則:
于是我們有
如果\(n > 5\),一個(gè)很好的近似是
如果\(n < 5\),一個(gè)很好的近似是
與此同時(shí),我們想知道假設(shè)\(A\)和\(B\)發(fā)生了什么。在測(cè)試了\(n\)個(gè)小部件并且證明了它們都是壞的之后,假設(shè)\(A\)和假設(shè)\(B\)的證據(jù)以及近似形式如下:
當(dāng)抽樣檢測(cè)樣本的次品率為\(100\%\)時(shí),假設(shè)\(A\)、\(B\)、\(C\)的證據(jù)隨抽樣次數(shù)的變化如下圖所示:
可以看到,曲線(xiàn)\(A\)和曲線(xiàn)\(B\)的初始直線(xiàn)部分代表我們?cè)谝胄录僭O(shè)\(C\)之前發(fā)現(xiàn)的解。新假設(shè)\(C\)在初始時(shí)會(huì)被暫時(shí)擱置, 它的影響直到\(C\)穿過(guò)\(B\)時(shí)才出現(xiàn)(本書(shū)作者將其這種現(xiàn)象稱(chēng)為“死假設(shè)”\(C\)“復(fù)活”)。從這一點(diǎn)往后,曲線(xiàn)\(A\)不再繼續(xù)向上,而是轉(zhuǎn)而向下。機(jī)器人確實(shí)已經(jīng)學(xué)會(huì)了如何懷疑。但是,曲線(xiàn)\(B\)在這一點(diǎn)上并沒(méi)有改變,它一直線(xiàn)性延伸到\(A\)和\(C\)具有相同合情性的位置。
對(duì)這種現(xiàn)象的解釋是,上述的多重序列檢測(cè)可以近似看作是交替進(jìn)行的二元假設(shè)檢驗(yàn):最初\(B\)的合情性遠(yuǎn)高于\(C\),我們實(shí)際上基本上是在針對(duì)\(B\)檢驗(yàn)\(A\),然后重現(xiàn)了式\((3)\)的解。在積累了足夠的證據(jù)后,\(C\)的合情性達(dá)到了與\(B\)相同的水平之后,基本上將是針對(duì)\(C\)而不是\(B\)檢驗(yàn)\(A\)。
更一般地說(shuō),只要我們有一組離散的假設(shè),則其中任何一個(gè)的合情性變化都將近似是針對(duì)單個(gè)備擇假設(shè)——所有假設(shè)當(dāng)中最合情的那個(gè)備擇假設(shè)進(jìn)行檢驗(yàn)的結(jié)果。
在這個(gè)針對(duì)\(A\)、\(B\)、\(C\)三種假設(shè)進(jìn)行檢驗(yàn)的示例中,有沒(méi)有可能“死假設(shè)”\(C\)不會(huì)“復(fù)活”呢?確實(shí)是有可能的。存在一個(gè)“懷疑閾值”,只要觀察到的次品率\(f_b=b/n\)小于這個(gè)值,機(jī)器人就永遠(yuǎn)不會(huì)懷疑命題\(A\)和命題\(B\),“死假設(shè)”\(C\)也永遠(yuǎn)不會(huì)“復(fù)活”。
我們之前得到的\(e(C\mid DX)\)的近似公式考慮的是我們檢測(cè)的\(n\)個(gè)部件全是壞部件的情況。現(xiàn)在我們考慮其中有\(b\)個(gè)壞部件和\(g\)個(gè)好部件的情況(類(lèi)似于式\((3)\)中描述的情況),則
其中\(P(\text{壞}\mid CX)=\frac{99}{100}, P(\text{好}\mid CX)=\frac{1}{100},P(\text{壞}\mid \overline{C}X) = \frac{(\frac{1}{3})(\frac{1}{11}) + (\frac{1}{6})(\frac{10}{11})}{(\frac{1}{11}) + (\frac{10}{11})}(1-10^{-6}忽略不計(jì)) = (\frac{1}{11})(\frac{1}{3}) + (\frac{10}{11})(\frac{1}{6}) = \frac{2}{11}, P(\text{好}\mid \overline{C}X) = \frac{(\frac{2}{3})(\frac{1}{11}) + (\frac{5}{6})(\frac{10}{11})}{(\frac{1}{11}) + (\frac{10}{11})}(1-10^{-6}忽略不計(jì)) = (\frac{1}{11})(\frac{2}{3}) + (\frac{10}{11})(\frac{5}{6}) = \frac{9}{11}\)。于是我們有
如果想要\(C\)的后驗(yàn)證據(jù)\(e(C\mid DX)\)在\(n\)次抽樣檢測(cè)中獲得提升,則要求
其中\(f_b \equiv b / n\)為次品率。因此,如果次品率\(f_b > 19 / 26 (\approx 0.73)\),機(jī)器人相對(duì)于命題\(A\)和命題\(B\)更傾向于命題\(C\),也就意味著“死假設(shè)”\(C\)會(huì)“復(fù)活”;如果次品率\(f_b < 19 / 26\),則“死假設(shè)”\(C\)不會(huì)“復(fù)活”。但是,如果次品率接近\(19/26\),則需要進(jìn)行許多次檢測(cè)才能使“死假設(shè)”\(C\)“復(fù)活”。
比如,當(dāng)抽樣檢測(cè)樣本的次品率為\(60\%\)時(shí),假設(shè)\(A\)、\(B\)、\(C\)的證據(jù)隨抽樣次數(shù)的變化如下圖所示:
可以看到,曲線(xiàn)\(A\)和曲線(xiàn)\(B\)對(duì)應(yīng)我們?cè)谝胄录僭O(shè)\(C\)之前發(fā)現(xiàn)的解,而新假設(shè)\(C\)則一直會(huì)被擱置, 也就意味著“死假設(shè)”\(C\)將不能夠“復(fù)活”。
4 連續(xù)概率分布函數(shù)
接下來(lái),我們對(duì)上面的例子進(jìn)行擴(kuò)展。直截了當(dāng)?shù)氖且敫嗟摹半x散”假設(shè)。更有趣的是引入一系列連續(xù)的假設(shè),例如
- \(H_f\):機(jī)器人以\(f\)的比例生產(chǎn)壞部件(\(f\)可以是\(0\leqslant f\leqslant 1\)中的任何數(shù)值)。
這樣,與離散的先驗(yàn)分布不同,我們的機(jī)器人需要考慮\(f\)在區(qū)間\((0\leqslant f \leqslant 1)\)中具有的連續(xù)分布,并將根據(jù)觀察到的樣本計(jì)算\(f\)取各種值的后驗(yàn)概率,由此可以做出各種決策。在繼續(xù)我們對(duì)假設(shè)檢驗(yàn)問(wèn)題的討論之前,我們先來(lái)討論連續(xù)概率分布。
我們?cè)诓┛?a href="http://www.rzrgm.cn/orion-orion/p/18472437" target="_blank">《概率論沉思錄:定量規(guī)則》中導(dǎo)出的推斷規(guī)則僅針對(duì)離散命題(\(A, B, \cdots\))的有限集合情況得出,但我們?cè)趯?shí)踐中可以將涉及連續(xù)假設(shè)的問(wèn)題進(jìn)行轉(zhuǎn)換,然后用這些規(guī)則進(jìn)行處理。假設(shè)\(f\)是我們感興趣的任意連續(xù)實(shí)參數(shù)變量,則我們可以定義以下離散、互斥且完備的命題:
因此,我們的規(guī)則一定適用于它們。給定一些先驗(yàn)信息\(X\),則\(F^{\prime}\)的概率通常取決于\(q\),從而定義
它顯然是單調(diào)增加的。接下來(lái)我們來(lái)看\(f\)位于指定區(qū)間(\(a_1 < f \leqslant a_2\))的概率是多少。我們定義以下命題:
則布爾代數(shù)關(guān)系為\(B = A + W\),由于\(A\)和\(W\)互斥,則加法規(guī)則可簡(jiǎn)化為\(P(B\mid X)=P(A\mid X) + P(W\mid X)\)。又因?yàn)?span id="w0obha2h00" class="math inline">\(P(B\mid X)=G(a_2)\),\(P(A\mid X)=G(a_1)\),所以我們有
在當(dāng)前情況下,\(G(q)\)是連續(xù)可微的,所以我們也可以寫(xiě)出
其中\(g(f)=G^{\prime}(f)\geqslant 0\)是\(G\)的導(dǎo)數(shù),通常稱(chēng)為概率分布函數(shù)(probability distribution function),或給定\(X\)時(shí)\(f\)的概率密度函數(shù)(probanility density function)。我們此后使用縮寫(xiě)PDF來(lái)表示它,與上述兩種英文名稱(chēng)均一致。它的積分\(G(f)\)可以稱(chēng)為\(f\)的累積分布函數(shù)(cumulative distribution function)。
5 檢驗(yàn)無(wú)數(shù)假設(shè)
現(xiàn)在假定我們同時(shí)要檢驗(yàn)無(wú)數(shù)個(gè)假設(shè)。我們可以使用分析的方法來(lái)使問(wèn)題變得更簡(jiǎn)單。但是,之前我們采用的對(duì)數(shù)形式的公式就不太好用了,因此我們下面會(huì)回到式\((1)\)中的原始概率形式:
現(xiàn)在讓\(A\)代表假設(shè)“壞部件比例在\((f, f + \mathrmw0obha2h00f)\)的范圍內(nèi)”,其先驗(yàn)PDF為:
這給出了壞部件比例在\(\mathrmw0obha2h00f\)區(qū)間內(nèi)的概率。令\(D\)表示迄今為止我們的實(shí)驗(yàn)結(jié)果:
- \(D\):抽樣檢測(cè)\(n\)個(gè)小部件,其中有\(b\)個(gè)壞部件和\(n-b\)個(gè)好部件。
那么\(f\)的后驗(yàn)PDF是
因此,先驗(yàn)PDF與后驗(yàn)PDF由
關(guān)聯(lián)。分母是歸一化常數(shù)。如果需要,通常可以要求后驗(yàn)PDF滿(mǎn)足歸一化條件\(P(0\leqslant f\leqslant 1\mid DX) = \int_{0}^1g(f\mid DX)\mathrmw0obha2h00f = 1\Rightarrow\int_0^1g(f\mid X)\frac{P(D\mid AX)}{P(D\mid X)}\mathrmw0obha2h00f=1\),從而更簡(jiǎn)單地確定該分母:
我們有\(\mathrmw0obha2h00f\rightarrow 0\)時(shí),\(P(D\mid AX)\rightarrow P(D\mid H_fX)\)(詳細(xì)證明過(guò)程請(qǐng)參見(jiàn)原書(shū))。考慮假設(shè)\(H_f\):機(jī)器人以\(f\)的比例生產(chǎn)壞部件,則在每次試驗(yàn)中取出壞部件的概率為\(f\),取出好部件的概率為\((1 - f)\)。現(xiàn)在,又由于我們有假設(shè)盒子里的小部件總數(shù)\(N\)比被抽樣檢測(cè)的數(shù)量\(n\)大很多,因此不同試驗(yàn)的概率在給定\(f\)時(shí)是邏輯獨(dú)立的,于是類(lèi)似我們?cè)谏弦黄┛?a href="http://www.rzrgm.cn/orion-orion/p/18519155" target="_blank">《概率論沉思錄:初等抽樣論》中推導(dǎo)二項(xiàng)分布那樣,可以得到
(注意,這里與二項(xiàng)分布不同的是,實(shí)驗(yàn)數(shù)據(jù)\(D\)是有順序的)
因此,我們的后驗(yàn)PDF就可以表示為
我們?cè)谶@篇博客中介紹的二元假設(shè)檢驗(yàn)檢驗(yàn)、多重假設(shè)檢驗(yàn)都做為特殊情況包含在了這個(gè)公式中。例如我們之前討論的針對(duì)\(A\)、\(B\)、\(C\)三種假設(shè)的檢驗(yàn),其對(duì)應(yīng)的先驗(yàn)PDF如下所示:
這里的\(\delta\)函數(shù)在除了0以外的點(diǎn)函數(shù)值都等于0,而在其整個(gè)定義域上的積分等于1。當(dāng)\(f\)分別取值\(\frac{1}{6}, \frac{1}{3}, \frac{99}{100}\)時(shí),先驗(yàn)PDF分別為\(\frac{10}{11}(1 - 10^{-6}), \frac{1}{11}(1 - 10^{-6}), 10^{-6}\)。
運(yùn)用這里的后驗(yàn)PDF表達(dá)式來(lái)重新考慮我們之前提到的針對(duì)\(A\)、\(B\)、\(C\)三種假設(shè)的檢驗(yàn)問(wèn)題,我們考慮對(duì)單個(gè)假設(shè)\(C\)進(jìn)行假設(shè)檢驗(yàn)(\(f_A=\frac{1}{6}, f_B=\frac{1}{3}, f_C=\frac{99}{100}\)),有
對(duì)比我們之前得到的\(e(C\mid DX)\):
我們發(fā)現(xiàn),\(e(C\mid DX)\)現(xiàn)在可以由\(e(C\mid DX) = 10\log_{10}\left[\frac{P(C\mid DX)}{1 - P(C\mid DX)}\right]\)得到。
現(xiàn)在,假設(shè)在檢測(cè)剛開(kāi)始時(shí)我們的機(jī)器人是剛出廠(chǎng)的,除了知道一臺(tái)機(jī)器可能生產(chǎn)好部件也可能生成壞部件之外,它沒(méi)有其它關(guān)于機(jī)器的先驗(yàn)知識(shí)。此時(shí),機(jī)器人沒(méi)有理由對(duì)于一個(gè)特定區(qū)間\(\mathrmw0obha2h00f\)分配比其它區(qū)間更高的概率。因此,我們讓機(jī)器人分配均勻先驗(yàn)概率密度\(g(f\mid X)=\text{常數(shù)}\)。為了使得\(\int_{0}^1g(f\mid X)\mathrmw0obha2h00f=1\),我們?nèi)?span id="w0obha2h00" class="math inline">\(g(f\mid X)=1, 0\leqslant f\leqslant 1\)。此時(shí),式\((8)\)中的積分就是著名的第一類(lèi)歐拉積分(現(xiàn)在通常稱(chēng)為完全Beta函數(shù)),我們有:
注 數(shù)學(xué)中有兩種類(lèi)型的歐拉積分(Euler intergral)[4]:
- 第一類(lèi)歐拉積分(Beta函數(shù)):
\[\Beta(x, y) = \int_{0}^1 t^{x - 1}(1-t)^{y-1}\mathrmw0obha2h00t = \frac{\Gamma(x)\Gamma(y)}{\Gamma(x +y)} \]
- 第二類(lèi)歐拉積分(Gamma函數(shù)):
\[\Gamma(z) = \int_{0}^{\infty}t^{z-1}e^{-t}\mathrmw0obha2h00t \]對(duì)于正整數(shù)\(n\),有\(\Gamma(n) = (n - 1)!\)。
上述后驗(yàn)分布在\((0\leqslant f\leqslant 1)\)中有一個(gè)峰,通過(guò)令\(g^{\prime}(f\mid DX)=0\)可以得到這是在\(f = \hat{f}=\frac{b}{n}\)處。其物理意義是觀察到的壞部件比例或相對(duì)頻率。為了尋找峰的尖銳程度,我們想對(duì)該函數(shù)進(jìn)行進(jìn)一步分析,由于該函數(shù)包括幾個(gè)因子的累乘,我們對(duì)其進(jìn)行取對(duì)數(shù),得到:
然后在\(\hat{f}\)處對(duì)\(\mathcal{L(f)}\)做二階Taylor展開(kāi):
其中\(\sigma^2 \equiv \frac{\hat{f}(1 - \hat{f})}{N}\)(這里需要注意\(\mathcal{L}^{\prime\prime}(f)=\frac{-nf^2 + 2bf - b}{f^2(1 - f)^2}, \mathcal{L}^{\prime\prime}(\hat{f}) = \frac{-n\frac{b^2}{n^2} + 2b\frac{b}{n} - b}{\hat{f}^2(1 - \hat{f})^2}=\frac{b(\frac{b}{n} - 1)}{\hat{f}^2(1 - \hat{f})^2}=\frac{-b(1 - \hat{f})}{\hat{f}^2 (1 - \hat{f})^2}=-\frac{b}{\hat{f}^2(1 - \hat{f})}=-\frac{b}{\frac{b}{n}\hat{f}(1 - \hat{f})}=-\frac{n}{\hat{f}(1 - \hat{f})}\))。
對(duì)于這個(gè)近似值,我們就得到了式\((9)\)的近似分布:
該分布稱(chēng)為高斯分布(Gaussian distribution)(或稱(chēng)正態(tài)分布(normal distribution))。其中\(K=\frac{1}{\sqrt{2\pi\sigma^2}}\)是歸一化常數(shù),用于保證\(\int_0^1 g(f\mid DX)=1\)。實(shí)際上,只要\(b\gg 1\)且\((n - b)\gg 1\),這是在整個(gè)區(qū)間\((0 < f < 1)\)中對(duì)式\((9)\)的一個(gè)很好的逼近。
注 關(guān)于二項(xiàng)分布的正態(tài)逼近,有棣莫弗-拉普拉斯(de Moivre-Laplace)極限定理對(duì)其進(jìn)行刻畫(huà)。設(shè)\(n\)重伯努利試驗(yàn)中,事件\(A\)在每次試驗(yàn)中出現(xiàn)的概率為\(p\)(\(0<p<1\)),記\(S_n\)為\(n\)次試驗(yàn)中事件\(A\)出現(xiàn)的次數(shù),則當(dāng)\(n\rightarrow \infty\)時(shí),有\(\frac{S_n}{n} \rightarrow \mathcal{N}(p, \sqrt{\frac{pq}{n}})\)(依分布)。這里的\(\frac{S_n}{n}\)對(duì)應(yīng)我們前面提到的\(\frac{b}{n}\),\(p\)對(duì)應(yīng)我們前面提到的\(\hat{f}=\frac{b}{n}\),\(q\)對(duì)應(yīng)我們前面提到的\(1 - \hat{f}\)。
因此,在\(n\)次試驗(yàn)中觀察到\(b\)個(gè)壞部件后,\(f\)的最概然值(the most likely value)是觀察到的壞部件的比例,這合理地描述了機(jī)器人關(guān)于\(f\)的知識(shí)狀態(tài)。考慮\(f\)的準(zhǔn)確性,這個(gè)估計(jì)使得\(\hat{f}\pm\sigma\)很可能包含真實(shí)值。參數(shù)\(\sigma\)稱(chēng)為PDF\((10)\)的標(biāo)準(zhǔn)差(standard deviation),\(\sigma^2\)稱(chēng)為PDF\((10)\)的方差(variance)。更準(zhǔn)確地說(shuō),根據(jù)式\((10)\)進(jìn)行分析,機(jī)器人分配概率如下:
隨著測(cè)試次數(shù)\(n\)的增加,這些區(qū)間會(huì)根據(jù)\(\sigma^2=\frac{\hat{f}(1 - \hat{f})}{n}\),正比于\(\frac{1}{\sqrt{n}}\)按比例縮小。
注 這里可以想到質(zhì)量控制里用的較多的3 sigma法則(也被稱(chēng)為68-95-99.7法則)[5],也即對(duì)于服從正態(tài)分布\(\mathcal{N}(\mu, \sigma^2)\)隨機(jī)變量\(X\),其觀測(cè)值包含在\(\mu\pm \sigma\)中的概率為\(68.3\%\);包含在\(\mu\pm 2\sigma\)中的概率為\(95.4\%\);包含在\(\mu\pm 3\sigma\)中的概率為\(99.7\%\)。
這樣,我們看到機(jī)器人從對(duì)\(f\)的“無(wú)知”狀態(tài)開(kāi)始,隨著從測(cè)試中積累信息,它對(duì)\(f\)的估計(jì)越來(lái)越確定,這與常識(shí)吻合。但是我們?cè)谶@里需要強(qiáng)調(diào),\(f\)不會(huì)隨時(shí)間變化,\(\sigma\)不是\(f\)的真實(shí)屬性而只是機(jī)器人表示其關(guān)于\(f\)的知識(shí)狀態(tài)的概率分布的屬性。
6 簡(jiǎn)單假設(shè)與復(fù)合假設(shè)
到目前為止,我們考慮的假設(shè)(\(A\)、\(B\)、\(C\)、\(H_f\))指的是單個(gè)參數(shù)\(f=M/N\),即盒子中壞部件的未知比例,而且為\(f\)指定了一個(gè)明確定義的值(在\(H_f\)中,它可以是\(0\leqslant f\leqslant 1\)中的任何數(shù)值)。這種假設(shè)稱(chēng)為簡(jiǎn)單假設(shè)(simple hypothesis),因?yàn)槿绻x了一個(gè)包含所有參數(shù)的參數(shù)空間\(\Omega\),這樣的假設(shè)在\(\Omega\)中由單個(gè)點(diǎn)表示。
然而,有時(shí)我們不需要檢驗(yàn)\(\Omega\)中的所有簡(jiǎn)單假設(shè),只關(guān)心參數(shù)是位于某個(gè)子集\(\Omega_1\subseteq \Omega\)還是其補(bǔ)集\(\Omega_2 = \Omega - \Omega_1\)中,而不關(guān)心該子集中\(f\)的特定值。我們稱(chēng)形如\(H\equiv f \in \Omega_1\)的假設(shè)為復(fù)合假設(shè)(compound/composite hypothesis)。我們是否可以直接處理復(fù)合假設(shè),而不要求機(jī)器人檢驗(yàn)\(\Omega_1\)中的每個(gè)簡(jiǎn)單假設(shè)呢?
事實(shí)上,在式\((8)\)中,我們幾乎完成了所有工作,接下來(lái)我們只需要再進(jìn)行一次積分消除冗余參數(shù)即可。參數(shù)空間\(\Omega\)由\([0, 1]\)中的所有\(f\)組成。假設(shè)若\(f > 0.1\),我們需要采取一些措施(如關(guān)閉并重新調(diào)整機(jī)器);若\(f \leqslant 0.1\),則應(yīng)該讓機(jī)器繼續(xù)運(yùn)行。那么我們定義\(\Omega_1\)為\([0.1, 1]\)中的所有\(f\),令復(fù)合假設(shè)\(H\equiv f\in \Omega_1\)。由于\(f\)的實(shí)際值無(wú)關(guān)緊要,\(f\)現(xiàn)在稱(chēng)為冗余參數(shù)(nuisance parameter),我們想消去它。通過(guò)對(duì)冗余參數(shù)\(f\)求積分,可以將其從式\((8)\)中消去:
在\(f\)是均勻先驗(yàn)PDF的情況下,結(jié)果是不完全Beta函數(shù):\(f\)在任何指定區(qū)間\((a_1 < f < a_2)\)中的后驗(yàn)概率為
計(jì)算機(jī)能夠輕松計(jì)算這種形式的式子。
參考
- [1] Jaynes E T. Probability theory: The logic of science[M]. Cambridge university press, 2003.
- [2] 杰恩斯. 廖海仁譯. 概率論沉思錄[M]. 人民郵電出版社, 2024.
- [3] Kant I, Meiklejohn J M D, Abbott T K, et al. Critique of pure reason[M]. London: JM Dent, 1934.
- [4] 《維基百科:歐拉積分》
- [5] 《維基百科:68–95–99.7法則》

我們?cè)谏弦黄┛椭薪榻B了傳統(tǒng)的抽樣理論。其中,我們導(dǎo)出了幾種經(jīng)典的抽樣分布,也即給定關(guān)于所觀察現(xiàn)象的假設(shè)H,數(shù)據(jù)D的概率分布p(D | H)。在上一篇博客中提到的伯努利壇子模型中,假設(shè)H即壇子的內(nèi)容,數(shù)據(jù)D即重復(fù)抽球所生成的紅球和白球序列。但正如我們我們?cè)谏弦黄┛偷哪┪菜觯瑤缀跛袑?shí)際的科學(xué)推斷問(wèn)題都處在相反的使用場(chǎng)景:我們已知數(shù)據(jù)D,希望確定假設(shè)H。更一般地說(shuō),已知數(shù)據(jù)D,如何求概率分布p(H_1 | D), p(H_2 | D), ...,以指出給定假設(shè){H_1, H_2, ...}中哪一個(gè)成立?例如,我們的假設(shè)可能是對(duì)生成數(shù)據(jù)的物理機(jī)制的各種推斷。但是從根本上講,物理因果關(guān)系不是問(wèn)題的必要組成部分,重要的只是假設(shè)和數(shù)據(jù)之間有某種邏輯關(guān)系。我們將這類(lèi)問(wèn)題稱(chēng)為假設(shè)檢驗(yàn)(hypothesis testing)。
浙公網(wǎng)安備 33010602011771號(hào)