概率論沉思錄:概率論的怪異應(yīng)用
導(dǎo)言
我不想在這里掩蓋一個事實:在這些規(guī)則的具體應(yīng)用中,我預(yù)見到會發(fā)生許多事情,如果不謹慎行動,可能會犯嚴重的錯誤。
——詹姆斯·伯努利(James Bernoulli, 1713, 第四部分第3章[1])
我們在上一篇博客《概率論沉思錄:初等假設(shè)檢驗》中介紹了采用貝葉斯方法進行假設(shè)檢驗。其中,我們提到了公式:
其中\(X\)為先驗信息,\(H\)為待檢驗的假設(shè),\(D\)為數(shù)據(jù)。該公式是我們試圖從數(shù)據(jù)中得出結(jié)論的一大類科學(xué)推斷問題背后的基本原理。
在這一篇博客中,我們將看下采用貝葉斯方法進行的假設(shè)檢驗在實踐中是如何表現(xiàn)的。我們將討論一些概率論的“怪異”應(yīng)用[2][3]。所謂“怪異”,即“偏離常規(guī)”,沒有正確地使用概率論導(dǎo)致了錯誤。大概任何全新的應(yīng)用都必須經(jīng)過這種類似的怪異探索階段。在許多情況下,我們認為今天的怪異應(yīng)用可能成為明天受人尊敬的有用應(yīng)用。我們將會使用貝葉斯分析來重新考慮這些問題,并消除掉其中的“怪異”,獲得一些有用的結(jié)論。
在這一篇博客中,我們將用概率論來測量我們對各種假設(shè)的信念。我們將會看到,除了數(shù)據(jù)之外,備擇假設(shè)、對假設(shè)先驗概率的分配、對數(shù)據(jù)的解釋方式等等也會對我們對假設(shè)的信念產(chǎn)生重要的影響。其中,我們會提到我們在上一篇博客中提到過的“死假設(shè)復(fù)活”現(xiàn)象。我們將會看到:無論后續(xù)數(shù)據(jù)給出的證據(jù)如何,一個始于\(-100\text{dB}\)的假設(shè)\(A\)可能永遠難以令人置信,因為幾乎肯定有許多其它假設(shè)\((B_1, B_2, \cdots)\)的可能性比它的更高,也許是\(-60\text{dB}\)。這樣,當我們獲得可能“復(fù)活”假設(shè)\(A\)的驚人數(shù)據(jù)時,這些備擇假設(shè)也可能“復(fù)活”(我們在下文的心靈感應(yīng)和海王星的發(fā)現(xiàn)的例子中將看到這一點)。
1 斯圖爾特夫人的心靈感應(yīng)能力
我們現(xiàn)在來測量我們對特異功能(extrasensory perception, ESP)的信念有多強。假定我們對特異功能的初始信念為\(-100\text{dB}\)。如果我們遇到一個人,能夠正確猜出我們背著他寫下的數(shù)\(1000\)次,我們是否就會相信他具有特異功能呢?
考慮如下關(guān)于格洛麗亞·斯圖爾特夫人的心靈感應(yīng)能力的一個實驗。在該實驗的報告中,根據(jù)實驗設(shè)計,如果隨機猜測的話,每次能正確猜出一張卡片的概率都是\(p=0.2\),并且在每次試驗中是獨立的。根據(jù)這個信息,我們可以得到在\(n\)次試驗中隨機猜測且猜測成功的次數(shù)\(r\)服從二項分布\(b(r\mid n, p)\)(參見博客《概率論沉思錄:初等抽樣論》)。令「\(H_p\):只有純粹偶然性在起作用」為零假設(shè)。根據(jù)二項分布,如果受試者沒有特異功能,則\(n\)次試驗中猜測成功的次數(shù)\(r\)約為\([(\text{均值})\pm (\text{標準差})]\):
對于\(n = 37100\)次試驗,結(jié)果約為\(7420\pm 77\)。
但是,據(jù)報告,格洛麗亞·斯圖爾特夫人在\(37100\)次試驗中猜對了\(9410\)次,成功率\(f\approx 0.2536\)。這些數(shù)值構(gòu)成了我們的實驗數(shù)據(jù)\(D\)。乍一看,這些數(shù)據(jù)并不引人注目。但請注意,她的得分與機會期望相差
個標準差。
我們現(xiàn)在想對我們的零假設(shè)\(H_p\)進行檢驗,看下以這個假設(shè)為條件能否生成我們的實驗數(shù)據(jù)。對于數(shù)據(jù)\(D\),假設(shè)\(H_p\)的似然可以表示為下列抽樣分布:
我們想計算這個似然\(L_p\)是多少,但是數(shù)值\(n\)和\(r\)太大,我們需要使用二項分布的斯特林近似值:
其中
為觀測分布\((f, 1 - f)\)相對于期望分布\((p, 1 - p)\)的相對熵,\(A\equiv \sqrt{\left[\frac{n}{2\pi r(n - r)}\right]}\)。
注:這里相對熵的定義\(H(f, p) = \mathbb{E}_f\ln(\frac{p}{f})\)和信息論里相對熵的定義\(H(f, p) = \mathbb{E}_f\ln(\frac{f}{p})\)不太一樣,導(dǎo)致這里的相對熵按定義有\(H(f, p)\leqslant 0\)。考慮到作者的物理背景,我去查了中科大統(tǒng)計力學(xué)的講義[4](好像Staff服務(wù)器臨時宕機了,不過可以在Wayback Machine里面查看),發(fā)現(xiàn)統(tǒng)計力學(xué)里相對熵的定義確實是\(\leqslant 0\)的。我認為可能是為了保持和熵的定義\(H(p)=-\mathbb{E}_p\ln p\)的類似性,所以才將相對熵定義為\(H(f, p)=-\mathbb{E}_f\ln(\frac{f}{p})=\mathbb{E}_f\ln(\frac{p}{f}) \leqslant 0\)。
在我們這個例子中觀測分布\((f, 1 - f)\approx (0.2536, 0.7464)\),期望分布\((p, 1 - p)=(0.2000, 0.8000)\),則\(H(f, p)\approx -0.008452\),又因為\(A \approx 0.00476\),于是
這個數(shù)值非常小,說明如果斯圖爾特夫人如果僅僅依靠隨機猜測的話,幾乎不可能得到我們的實驗數(shù)據(jù)。那么,如果假設(shè)斯圖爾特夫人具有心靈感應(yīng)。能否產(chǎn)生更大的似然呢?
考慮伯努利類型的備擇假設(shè)\(H_q(0\leqslant q\leqslant 1)\),它也假設(shè)試驗是獨立的,不過為斯圖爾特夫人分配了與\(p=0.2\)不同的成功概率\(q\)(如果認為她具有心靈感應(yīng),則\(q >0.2\))。當\(q = f \approx 0.2536\)時,\(H(f, q)=0\)達到最大值(注意這里的\(H(f, q)\leqslant 0\)),此時似然也達到最大值。我們記此時的假設(shè)為\(H_f\),則最大似然為
因此,如果機器人知道斯圖爾特夫人的心靈感應(yīng)能力可以達到\(q=0.2536\)的程度,那么機器人就會認為她生成所觀測到數(shù)據(jù)的可能性不會很小。我們可以計算假設(shè)\(H_p\)和假設(shè)\(H_f\)的似然比:
我們發(fā)現(xiàn)這兩個假設(shè)的似然比非常小。如果僅根據(jù)這個結(jié)果的話,機器人應(yīng)該報告:“相對于\(H_p\),數(shù)據(jù)的確極大地支持了\(H_f\)。”
注 關(guān)于這里的所采用的二項分布的正態(tài)近似,如果使用我們在上一篇博客《概率論沉思錄:初等假設(shè)檢驗》中得到的二項分布的正態(tài)近似值
\[P(D\mid H_p, X) \approx (\text{常數(shù)})\times \exp\left\{ - \frac{n(f - p)^2}{2p(1 - p)}\right\} \]可能會產(chǎn)生較大的誤差。在這里使用它的話,我們將得出似然比\(\exp\{-333.1\}\)。而\(\exp\{-333.1\} < \exp\{-313.6\}\),也就意味著正態(tài)近似值會使斯圖爾特夫人看上去比數(shù)據(jù)顯示得更加神奇,額外的幾率因子為
\[\frac{\exp\{-313.6\}}{\exp\{-333.1\}} = \exp\{333.1 - 313.6\} = \exp\{19.5\} \approx 2.94\times 10^{8} \]
如果我們用概率論比較\(H_p\)和\(H_f\),則斯圖爾特夫人具有特異功能的程度達到\(q = f \approx 0.2536\)的后驗概率是
其中\(P_p\)和\(P_f\)分別為\(H_p\)和\(H_f\)的先驗概率。但是,由于\(L_p\ll L_f\),先驗概率是多少幾乎無關(guān)緊要。再加上對于特異功能研究人員而言,\(P_f = P(H_f\mid X)\)不會特別小,此時\(P(H_f\mid DX)\approx 1\)。
特異功能研究人員會認為這是壓倒性的證據(jù),但我們?nèi)詴猿植幌嘈盘禺惞δ堋槭裁次覀冊诿鎸ι鲜鼋Y(jié)果時,仍然會有如此堅定的想法呢?
問題在于,上述計算(參見式\((1)\)和式\((2)\))代表了概率論非常樸素的應(yīng)用,因為它們僅考慮了\(H_p\)和\(H_f\),而沒有考慮其它假設(shè)。
現(xiàn)在假定\(H_p, H_f, L_p, L_f, P_p, P_f\)的定義和上面一樣,但我們引入一些關(guān)于該實驗報告可能如何產(chǎn)生的新假設(shè)。這些新假設(shè)\((H_1, H_2, \cdots, H_k)\)的產(chǎn)生可能是無意的,例如非故意的記錄錯誤;也可能是無聊的(斯圖爾特夫人采用了一些作弊手段);也可能是不那么無意的,例如選擇數(shù)據(jù)(不報告斯圖爾特夫人狀態(tài)欠佳日子里的數(shù)據(jù)),甚至可能源于故意偽造整個實驗來達到某些目的。所有這些,我們都稱之為“欺騙”。設(shè)欺騙假設(shè)具有的似然概率和先驗概率分別為\(L_i\)和\(P_i\),其中\(i = (1, 2, \cdots, k)\)。
在這個新的邏輯環(huán)境中,之前得到壓倒性支持的假設(shè)\(H_f\)的后驗概率變?yōu)?/p>
其中,\(L_p\approx 3.04\times 10^{-139}\),導(dǎo)致\(P_pL_p\)可以忽略不計。于是,要使\(P(H_f\mid DX)\)接近于\(1\),就需要\(\sum_{i}P_iL_i\ll P_fL_f\)。讓我們假定欺騙假設(shè)的似然\(L_i\)與\(L_f\approx 0.00476\)的數(shù)量級相同(也即意味著欺騙機制可以像真正具有心靈感應(yīng)能力的斯圖爾特夫人一樣容易地產(chǎn)生報告中的數(shù)據(jù)),那么要使\(P(H_f\mid DX)\)接近于\(1\),就需要
但是根據(jù)我們的判斷,每一個欺騙假設(shè)\(H_i\)都比\(H_f\)更有可能,因此上述不等式成立的可能性不大。
因此,這種實驗永遠無法讓我們相信斯圖爾特夫人具有特異功能的真實性。這并不是因為我們一開始就斷言\(P_f=0\),而是因為實驗的數(shù)據(jù)\(D\)可以被許多替代假設(shè)解釋,我們認為其中每一個都比\(H_f\)更合理,且根據(jù)提供給我們的信息,其中沒有一個可以被排除。
2 意見分歧與趨同
假設(shè)\(A\)和\(B\)兩個人(由于先驗信息不同)對于某件事,比如某個有爭議的命題\(S\)的真假有不同的看法。現(xiàn)在同時給他們一系列的新信息或數(shù)據(jù)\(D_1, D_2, \cdots, D_n\),其中一些對\(S\)有利,一些對\(S\)不利。隨著\(n\)的增大,他們的信息總量變得幾乎相同,因此我們可能會期望他們對\(S\)的觀點趨于一致。
我們采用概率論來分析這種想法的合理性。設(shè)\(I_A\)和\(I_B\)表示\(A\)和\(B\)的先驗信息,\(A\)最初是支持者,\(B\)最初是懷疑者,則他們的先驗概率為:
接下來我們考慮接收到數(shù)據(jù)\(D\)后,他們的后驗概率是多少。如果\(D\)支持\(S\),由于\(A\)幾乎已經(jīng)確定\(S\)為真,所以
數(shù)據(jù)\(D\)對\(A\)的意見沒有明顯的影響。不過,如果\(B\)合理地進行推理,則會有
\(B\)的觀點會朝\(A\)的觀點的方向改變。
同理,如果\(D\)傾向于否定\(S\),則可以期望\(B\)的觀點不會因此明顯改變,而\(A\)的觀點將朝\(B\)觀點的方向改變。由此我們可能推測,無論新信息\(D\)是什么,它都應(yīng)該傾向于使不同的人達成共識,也即
盡管這在特殊情況下得到了驗證,但在通常情況下并非如此。
例如,在公共問題的討論中,我們多次觀察到,一些有爭議的問題被活躍地討論一段時間后,社會會逐漸分化為兩個極端陣營,很難找到保持觀點中立的人。比如知乎上關(guān)于俄烏戰(zhàn)爭,或者更早些的關(guān)于防疫的政策的討論等等。
我們想知道概率論能否解釋這種分歧,并指出人們可能在以合情的貝葉斯方法(即與其先驗信息和先驗信念一致的方式)進行思考。為了比較\(A\)和\(B\)兩人的推理,我們將\(A\)和\(B\)的后驗概率進一步用貝葉斯公式表示:
并用對數(shù)形式重寫上述式子:
這可以用用一個簡單的助記等式來描述:
式\((4)\)與我們在上一篇博客《概率論沉思錄:初等假設(shè)檢驗》中提到的對數(shù)幾率公式不同的是,這里的歸一化因子\(P(D\mid I_A)\)和\(P(D\mid I_B)\)沒有被消掉,這是因為在上一篇博客中我們在給定相同先驗信息的條件下比較不同的假設(shè),消掉了歸一化因子\(P(D\mid I)\),但是這里我們根據(jù)不同的先驗信息考慮一個固定的假設(shè)\(S\),歸一化因子不會被消掉。
由于\(P(S\mid I_A)\approx 1, P(S\mid I_B)\approx 0\),因此\(\ln (\text{先驗}) > 0\),那么我們可以針對似然項的不同情況做以下的分類討論:
- \(\ln (\text{似然}) < 0\),且\(|\ln (\text{似然})| < |\ln (\text{先驗})|\):此時\(\ln (\text{后驗})\rightarrow 0\)(單調(diào)),意味著在對數(shù)刻度上他們的觀點將收斂(趨同);
- \(\ln (\text{似然}) > 0\):此時\(\ln (\text{后驗})\rightarrow \infty\)(單調(diào)),意味著在對數(shù)刻度上他們的觀點將發(fā)散(分歧);
- \(\ln (\text{似然}) < 0\),且\(|\ln (\text{先驗})| < |\ln (\text{似然})| < 2|\ln (\text{先驗})|\):此時\(\ln (\text{后驗})\rightarrow -\ln (\text{先驗})\)(單調(diào)),意味著在對數(shù)刻度上他們的觀點將收斂且反轉(zhuǎn);
- \(\ln (\text{似然}) < 0\),且\(|\ln (\text{似然})| > 2|\ln (\text{先驗})|\):此時\(\ln (\text{后驗})\rightarrow -\infty\)(單調(diào)),意味著在對數(shù)刻度上他們的觀點將發(fā)散且反轉(zhuǎn);
看起來,概率論原則上可以允許信息\(D\)對兩人信念的相對狀態(tài)產(chǎn)生各種可能的影響。
但是,也許還有尚未注意到的其它約束使其中一些結(jié)果無法實現(xiàn)。我們接下來嘗試對這四種行為提供具體的示例。
設(shè)新信息\(D\):「\(N\)在電視上聳人聽聞地宣稱一種常用藥物是不安全的」,且\(A\)、\(B\)、\(C\)三名觀眾都看到了。他們對于該藥物安全的先驗概率\(P(S\mid I)\)分別為\((0.9, 0.1, 0.9)\),即最初\(A\)和\(C\)相信該藥物是安全的,\(B\)不相信。
我們設(shè)他們對信息\(D\)的解釋方式不同,這來源于他們對\(N\)可靠性的不同看法。他們都同意,如果藥物真的被證明是不安全的,\(N\)會在電視上大聲疾呼該藥物不安全,也即似然\(P(D\mid \overline{S}I)\)分別為\((1, 1, 1)\)。但是,\(A\)相信\(N\)是誠實的,\(C\)不相信。如果藥物是安全的,他們認為\(N\)說它不安全的概率\(P(D\mid SI)\)分別為\((0.01, 0.3, 0.99)\)。由公式
得出他們對該藥物安全的后驗概率分別約為\((0.083, 0.032, 0.899)\)。
\(A\)和\(B\)意見的變化趨勢與我們在式\((3)\)中的猜測是一致的:對該藥物安全的信念都顯著降低了(雖然對\(B\)而言只是加強了他原有的不安全信念),因為兩人都愿意在一定程度上相信\(N\)的誠實。而\(C\)和\(A\)、\(B\)的變化趨勢不同的原因在于他們對信息\(D\)可信程度的看法不同。因此,造成分歧的原因之一為即使是對于同樣的信息,不同的人對信息\(D\)的解釋也會具有差異。
但是,這不是造成分歧的唯一原因,不同的人對命題所分配的先驗概率也會對結(jié)果產(chǎn)生影響。我們引入另外兩個人\(X\)和\(Y\),與\(A\)、\(B\)、\(C\)不同的是,他們對\(N\)的判斷是一致的:
此時,他們的觀點總是朝著同一方向改變,而且由對數(shù)幾率公式可知,在證據(jù)尺度上總是以相同的量\(\ln(a/b)\)變化。但是,對于藥物的安全性,他們分配了不同的先驗概率:
我們在這里不妨設(shè)\(x > y\)(\(x < y\)的情況同理)。
根據(jù)\(x, y, a, b\)的賦值情況,他們的觀點既可能收斂,也可能發(fā)散。我們采用式\((4)\)中的做法來表示出它們后驗概率\(P(S\mid DI_X)\)與\(P(S\mid DI_Y)\)比值的對數(shù)形式:
由于\(x > y\),因此\(\ln (\text{先驗}) > 0\),那么我們可以像之前一樣,針對似然項的不同情況做以下的分類討論:
- \(\ln (\text{似然}) = 0\):代入可得\(a = b\),此時\(\ln (\text{后驗}) = \ln (\text{先驗})\),在這個例子里也就意味著他們認為\(N\)完全不可靠,\(N\)的證詞也沒有改變他們的觀點;
- \(\ln (\text{似然}) < 0\),且\(|\ln (\text{似然})| < |\ln (\text{先驗})|\):代入可得\(a > b\),此時\(\ln (\text{后驗})\rightarrow 0\)(單調(diào)),\(\ln(a/b) > 0\),在這個例子里也就意味著他們會認為\(N\)說的話含有欺騙的成分,以至于他們的觀點朝與\(N\)的意圖相背的方向趨同(一個極端情況是如果\(b\rightarrow 0\),則\(\ln(a/b)\rightarrow \infty\),即他們認為\(N\)肯定在撒謊,因此不論他們先驗概率是什么,都會完全相信藥物的安全性);
- \(\ln (\text{似然}) > 0\):代入可得\(a < b\),此時\(\ln (\text{后驗})\rightarrow \infty\)(單調(diào)),\(\ln (a/b) < 0\),在這個例子里也就意味著他們會認為\(N\)說的話含有可信的成分,他們的觀點朝\(N\)的意圖方向變化,但由于\(P(S\mid DI_Y)\)以更快的速度\(\rightarrow 0\),以至于產(chǎn)生分歧(一個極端情況是如果\(a\rightarrow 0\),則\(\ln(a/b)\rightarrow -\infty\),即他們認為\(N\)肯定是誠實的,因此不論他們先驗概率是什么,都會完全相信藥物是不安全的);
- \(\ln (\text{似然}) < 0\),且\(|\ln (\text{先驗})| < |\ln (\text{似然})| < 2|\ln (\text{先驗})|\):代入可得\(a > b\)且\(x < y\),這是不可能的,在這個例子里也就意味著如果\(x > y\),他們的觀點不會出現(xiàn)收斂且反轉(zhuǎn)的現(xiàn)象;
- \(\ln (\text{似然}) < 0\),且\(|\ln (\text{似然})| > 2|\ln (\text{先驗})|\):代入可得\(a > b\)且\(\frac{a}{b} < 1 - (\frac{1}{x} + \frac{1}{y}) < 0\),這是不可能的,在這個例子里也就意味著如果\(x > y\),他們的觀點不會出現(xiàn)發(fā)散且反轉(zhuǎn)的現(xiàn)象;
我們看到,用做為邏輯的概率論可以導(dǎo)出意見分歧的可能。但是,導(dǎo)致我們猜測式\((3)\)的推理錯誤在哪里呢?因為我們假設(shè)了“數(shù)據(jù)\(D\)支持假設(shè)\(S\)”是\(D\)和\(S\)的絕對性質(zhì),以一種微妙的形式犯了思維投射謬誤——這個關(guān)系實際上是相對的,\(D\)是否支持\(S\)取決于數(shù)據(jù)接受者的先驗信息,這將導(dǎo)致他們對\(S\)的不同先驗概率,和對\(D\)的不同解釋方式。
3 視覺感知——進化出“貝葉斯性”?
有一類關(guān)于錯覺的心理學(xué)實驗和我們所討論的貝葉斯理論也很有關(guān)聯(lián)。這些實驗的設(shè)計者對其進行了巧妙的設(shè)計,使人們“看到”了與現(xiàn)實截然不同的事物,包括錯誤判斷物體的大小、形狀和距離等等(參見復(fù)旦哲院王球老師的讀書會分享:王球:貝葉斯知覺心理學(xué))[5]。比如對于下面這幅圖[5],你覺得左邊和右邊的圖形哪個是凸起的,哪個是凹下的呢?
多數(shù)人會覺得左邊的圖形是凸起的,右邊的圖形是凹下的(不過我第一次看的時候覺得右邊的圖形是凸起的,右邊的圖形是凹下的。。。)。貝葉斯知覺心理學(xué)對此的解釋是,我們的視覺系統(tǒng)的加工,并不是純粹去被動地接受外部環(huán)境的信號,而是主動地在做一些隱式的推斷(本質(zhì)上相當于我們在這里研究的推斷)。外部環(huán)境的信息往往是不完整的,但我們的知覺系統(tǒng)會基于這些不完整的信息,去對環(huán)境情況進行估計。
在這個例子里,當我們看到這幅圖的時候,光打到我們視網(wǎng)膜上會產(chǎn)生一些近端刺激,但我們的知覺系統(tǒng)沒辦法去確定下來究竟是什么樣的外部環(huán)境原因?qū)е挛覀儸F(xiàn)在接收到這樣的一個信號刺激。也就是說,外部的環(huán)境情況究竟是什么樣的,我們的近端刺激沒辦法去確定下來。但是,我們的知覺系統(tǒng)仍然會給我們一個確定的推斷結(jié)果。
關(guān)于這個問題,我們在之后會單獨開一篇博客進行講述。
4 海王星的發(fā)現(xiàn)
概率論的另一種潛在應(yīng)用已經(jīng)被哲學(xué)家激烈地討論了一個多世紀,他涉及科學(xué)家的推理過程。通過該推理過程,科學(xué)家根據(jù)觀察到的事實接受或拒絕自己的理論。我們在博客《概率論沉思錄:合情推理》中提到,這主要包括使用兩種形式的三段論:
在博客《概率論沉思錄:定量規(guī)則》中,我們注意到這對應(yīng)于貝葉斯定理的兩種形式的應(yīng)用:
在第一種形式中,由\(P(\overline{B}\mid AX)=0\),得到\(P(A\mid \overline{B}X)=0\);在第二種形式中,由\(P(B\mid AX)=1\),\(P(B\mid X) \leqslant 1\),得到\(P(A\mid BX) \geqslant P(A\mid X)\)。這些形式確實與三段論在定性上是一致的。
我們接下來考慮上述的第二種形式是否給出了令人滿意的弱三段論定量版本,方便科學(xué)家在實踐中使用。我們以海王星的發(fā)現(xiàn)為例子。
1781年,赫歇爾發(fā)現(xiàn)了天王星。在幾十年內(nèi)(即當天王星繞過其軌道的三分之一時),它很明顯并不完全遵循牛頓理論(力學(xué)和引力定律)規(guī)定的路徑運行。在這一點上,強三段路的樸素應(yīng)用可能導(dǎo)致一個牛頓理論被推翻了的結(jié)論。但是,牛頓理論在許多其它方面的成功使其具有牢固的地位,以至于在天文學(xué)家的腦海中這個假設(shè)的可能性很低:“牛頓理論是錯誤的”這種可能性已經(jīng)降低到大概\(-50\text{dB}\)。因此,對于法國天文學(xué)家勒韋里耶(1811-1877)和英國劍橋?qū)W者亞當斯(1819-1892)來說,也許降低到\(-20\text{dB}\)的另一種假設(shè)“復(fù)活”了:必定存在天王星以外的另一個行星,其引力引起了這種差異。
勒韋里耶和亞當斯在不知道彼此工作的情況下,獨立計算了可能導(dǎo)致所觀測偏差的行星的質(zhì)量和軌道,并預(yù)測在哪里可以發(fā)現(xiàn)這顆新行星。兩人的結(jié)果幾乎相同。1846年9月23日,柏林天文臺收到勒韋里耶的預(yù)測。當晚,在柏林天文臺工作的天文學(xué)家加勒在預(yù)測位置的大約\(1°\)之內(nèi)發(fā)現(xiàn)了新行星(海王星)。
通過這個插曲,我們會本能地認為牛頓理論的合情性增加了。問題是,增加了多少?我們將用概率論來對該問題進行建模。
我們設(shè)\(T\)代表牛頓理論,\(N\)代表勒韋里耶經(jīng)過驗證的那部分預(yù)測結(jié)果。那么,概率論給出\(T\)的后驗概率為
關(guān)注最后一個等式,我們發(fā)現(xiàn)我們需要考慮\(P(N\mid \overline{T}X)\)。但是,這個量我們還沒有定義。在我們指定牛頓理論的替代理論之前,命題\(\overline{T}\equiv \text{“牛頓理論是錯誤的”}\)沒有明確的意義。
為了認識到替代理論對問題結(jié)果的影響,我們考慮以下兩種特殊情況:
- 如果僅存在一個可能的備擇理論,且根據(jù)該理論天王星之外沒有行星,則\(P(N\mid \overline{T}X)=0\)。此時,概率論再次簡化為演繹推理,給出\(P(T\mid NX)=1\),牛頓理論成立。
- 如果愛因斯坦理論是唯一可能的備擇理論,那么對于這一現(xiàn)象,其預(yù)測結(jié)果和牛頓理論的預(yù)測結(jié)果不會有顯著的差異,將得到\(P(N\mid \overline{T}X)=P(N\mid TX)\),于是\(P(T\mid NX)=P(T\mid X)\),牛頓理論的合情性不變。
因此,對勒維里耶-亞當斯預(yù)測結(jié)果的驗證,可能會將牛頓理論提升到確定的程度,也可能對其合情性完全沒有影響。這完全取決于:我們在檢驗牛頓定律時使用了哪種特定的替代理論。
注 對于正在評估自己理論的科學(xué)家而言,這個結(jié)論可以根據(jù)常識得出。我們已經(jīng)在上一篇博客《概率論沉思錄:初等假設(shè)檢驗》中詳細介紹其中的數(shù)學(xué)原理。只不過對于科學(xué)家而言,他們不需要任何數(shù)學(xué)原理就能直觀地看到同樣的結(jié)果。
我們考慮替代理論\(H_1\):「天王星以外還存在一顆行星,但它在天球上所有方向上的可能性相同」。然后,由于\(1°\)角的圓錐體在天空中填充大約\(\pi/57.3^2=10^{-3}\)球面度,因此\(P(N\mid H_1X)\approx 10^{-3}/4\pi=1/13000\),這是海王星將在預(yù)測位置\(1°\)以內(nèi)的概率。
注 球面度[6],也稱立弳(英語:steradian,符號sr)是立體角的國際單位。它可算是三維的弧度。
![]()
以\(r\)為半徑的球的中心為頂點,若展開的立體角所對應(yīng)的球面表面積為\(r^2\),該立體角的大小就是一球面度。球表面積為\(4\pi r^2\),因此整個球有\(4\pi\)個球面度(這也是為什么我們上面算\(P(N\mid H_1X)\)的時候為什么要除以\(4\pi\))。
波利亞在考慮此問題時,在計算中沒有區(qū)分\(P(N\mid X)\)和\(P(N\mid \overline{T}X)\)。他想依據(jù)公式\(P(T\mid NX) = P(T\mid X)\frac{P(N\mid TX)}{P(N\mid X)}\)計算\(T\)的后驗概率與先驗概率的比值,但他并沒有計算\(\frac{P(N\mid TX)}{P(N\mid X)}\),而是計算的
這樣,波利亞就發(fā)現(xiàn)牛頓理論為真的概率增加了\(13000\)倍,那么先驗概率必然低于\(1/13000\)。然而,這與常識矛盾,因為牛頓理論在勒維里耶出生之前就已經(jīng)很成熟了。波利亞在他的書中將其解釋為,這揭示了貝葉斯定理的不一致性以及試圖對其進行數(shù)值化應(yīng)用的危險。
不過我們知道,這個比值實質(zhì)上是\(T\)的后驗幾率和先驗幾率之比:
此時得出的結(jié)論將令人滿意。說明如果僅考慮\(H_1\)做為備擇假設(shè)的話,則對預(yù)測結(jié)果的驗證會使牛頓理論的證據(jù)增加\(10\log_{10}(13000)\approx 41\text{dB}\)。
這個例子說明了當我們更仔細地研究問題時,可以如何消除在文獻中發(fā)現(xiàn)的對貝葉斯-拉普拉斯方法的異議。然而,該例子同時也表明,科學(xué)家在實踐中面臨的情況如此復(fù)雜,以至于幾乎沒有希望通過應(yīng)用貝葉斯定理來給出有關(guān)理論相對優(yōu)劣的定量結(jié)果。事實上也幾乎沒有必要這樣做,因為科學(xué)家面對的真正困難不在于推理過程本身,他們的推理過程運用常識就夠了。真正的困難在于,學(xué)習(xí)如何得到更符合事實的新的替代方案。
5 賽馬和天氣預(yù)報
前面的示例指出了推斷問題可能會具有的兩個特點:(a)在特異功能和心理學(xué)的案例中,我們收到的信息通常不是直接聲明\(S\)為真的命題,而是間接聲明\(S\)為真,信息來源本身并不完全可靠;(b)就像海王星的例子中那樣,人們可能誤用貝葉斯定理,并得出貝葉斯定理錯誤的結(jié)論。普林斯頓大學(xué)的哲學(xué)家杰弗里的工作同時存在這兩個特點。以下用RCJ來表示哲學(xué)家杰弗里。
RCJ考慮了以下問題。僅使用先驗信息\(I\),我們?yōu)?span id="w0obha2h00" class="math inline">\(A\)分配一個概率\(P(A\mid I)\)。然后得到新信息\(B\),根據(jù)貝葉斯定理它會變?yōu)?/p>
但是之后,他認為貝葉斯定理還不夠一般化,因為我們經(jīng)常收到不確定的新信息,也許\(B\)的概率不是\(1\)而是\(q\)。為此,我們會回應(yīng):“如果你不接受\(B\)為真,為什么要以這種方式在貝葉斯定理中使用它呢?”但RCJ犯了一個常見的錯誤:不是由于錯誤地應(yīng)用上式中的不確定性信息而誤用了貝葉斯定理,而是貝葉斯定理本身就是錯誤的,需要將其一般化以考慮新信息的不確定性。
他提出的一般化方案是將\(A\)的更新概率視為以下加權(quán)平均值:
但是,就像我們之前提到過的,這是一種特定方案(ad hockery),而不是依據(jù)概率論規(guī)則,除非我們將\(q\)視為先驗概率\(P(B\mid I)\)。然而,這正是RCJ想排除的情況(因為這時\(P(A)_J = P(A\mid I)\),并沒有更新)。
由于RCJ提出的“一般化”公式與概率論規(guī)則沖突,我們知道它必然違反了我們在博客《概率論沉思錄:合情推理》和《概率論沉思錄:定量規(guī)則》中討論過的合情條件之一。事實上,我們可以學(xué)習(xí)很多不同的東西,不只是新信息\(B\)。RCJ提出的更新方式對\(B\)而言是這樣的,但對其它信息則可能不然。RCJ提出的“一般化”公式違反了我們在博客《概率論沉思錄:合情推理》中提到的合情條件\((Ⅲ\text{b})\):非意識形態(tài)性,因為它沒有考慮所有新信息,僅考慮了與\(B\)相關(guān)的部分。
我們在博客《概率論沉思錄:定量規(guī)則》中的分析告訴我們,如果要扭轉(zhuǎn)現(xiàn)狀并得到一個有確定答案的良好定義的問題,那么我們絕不能背離貝葉斯定理。如果不確定\(B\)為真,那么就不能用\(B\)做為新信息。實際收到的信息一定是某個命題\(C\),使得\(P(B\mid CI)=q\)。此時,我們當然應(yīng)該考慮以\(C\)而不是以\(B\)為條件的貝葉斯定理:
如果正確應(yīng)用,貝葉斯定理會自動考慮含有不確定性的新信息。因為上述\(A\)的更新概率可以使用概率論的加法規(guī)則和乘法規(guī)則寫為:
如果我們定義\(q\equiv P(B\mid CI)\)為\(B\)的更新概率,則可以寫成
這類似于RCJ提出的“一般化”公式,但通常不等于它,除非我們添加概率\(P(A\mid BCI)\)和\(P(A\mid \overline{B}CI)\)與\(C\)無關(guān)的限制。直覺上,如果添加了該限制,我們這里的邏輯流是
也即\(C\)僅通過與\(B\)的中介才與\(A\)相關(guān)。RCJ考慮的其實是我們這里的特殊情況,不過他沒有考慮到這個結(jié)果其實可以由貝葉斯定理推導(dǎo)出。此外,他沒有考慮到邏輯流
即無論\(B\)是否為真,\(C\)與\(A\)直接相關(guān)。這也就意味著他沒有考慮到所有的新信息,而只考慮了\(C\)經(jīng)過\(B\)的中介與\(A\)關(guān)聯(lián)的那部分信息。
我們可以通過另一種場景來更實際地說明這一點。考慮以下命題:
- \(A\):我的馬明天將贏得比賽。
- \(B\):賽道將變得泥濘。
- \(I\):我對自己的馬和騎師的特別了解,以及對馬、騎師、比賽和生活的一般了解。
概率\(P(A\mid I)\)在接收天氣預(yù)報的結(jié)果后更新。這樣,命題
- \(C\):天氣預(yù)報員向我們展示今天的天氣圖,引用一些當前的氣象數(shù)據(jù),然后通過未經(jīng)解釋的方式分配了明天下雨的概率\(q^{\prime}\)。
明顯存在,但RCJ沒有意識到并加以說明。如果上面定義的\(C\)是新信息,那么我們還必須根據(jù)所有的現(xiàn)有信息,考慮\(C\)可能如何通過賽道上的泥濘\(B\)以外的其它情況影響比賽\(A\)的結(jié)果。也許騎師會因為耀眼的陽光眼花,也許(無論賽道是否潮濕)馬在多云的日子里都跑得不好,這些將是RCJ提出的“一般化”公式無法考慮的\((C\rightarrow A)\)形式的邏輯關(guān)系。
這個例子也說明了日常生活中的常見問題可能比科學(xué)問題復(fù)雜得多。在科學(xué)問題中,我們經(jīng)常研究精心控制的情況;而最熟悉的問題可能非常復(fù)雜(僅僅因為結(jié)果取決于許多未知且不受控制的因素)以至于盡管在原則上是正確的,但是在實踐中完全無法進行完整的貝葉斯分析。后者的計算成本遠遠超出了我們希望通過賽馬贏得的賭注。
那么,我們必然使用近似技巧。既然不能精確地應(yīng)用貝葉斯定理,我們是否仍需要考慮它?答案是肯定的。因為貝葉斯定理仍然是告訴我們應(yīng)該尋找什么的規(guī)范性原則。沒有它,我們將沒有指導(dǎo)選擇的依據(jù),也沒有判斷其成功與否的標準。
6 關(guān)于直覺的悖論
我們認為,做為擴展邏輯的概率論規(guī)則的定量使用是已知進行推斷的唯一合理方法,沒有嚴格遵守這些規(guī)則是多年以來一直導(dǎo)致不必要的錯誤、悖論和爭議的原因。關(guān)于直覺的悖論有一個著名的例子,稱為亨佩爾悖論,它的前提是「假設(shè)的一個示例支持該假設(shè)」,然后內(nèi)容是「所有烏鴉都是黑色的假設(shè)在邏輯上等價于所有非黑色物體都不是烏鴉的命題,于是觀察到一只白鞋會支持這個假設(shè)」。這種看似正確(但最終得出令人無法認同的結(jié)論)的論點,已經(jīng)有很多記載。
這里的問題在于,亨佩爾通過試圖在不考慮任何備擇假設(shè)的情況下判斷假設(shè)的真假,導(dǎo)致其前提錯誤。可以通過一個簡單的反例證明這個前提中的錯誤。我們設(shè)有以下兩個世界:
- 世界1:其中有\(100\)萬只鳥,其中有\(100\)只烏鴉且都是黑烏鴉。
- 世界2:其中有\(200\)萬只鳥,其中有\(20\)萬只黑烏鴉,\(180\)萬只白烏鴉。
現(xiàn)在假定我們觀察到一只黑烏鴉,請問我們處在哪個世界?
根據(jù)對數(shù)幾率公式,觀察到一直黑烏鴉可以為假設(shè)\(A\):「我們處在世界2」給出
的證據(jù),以\(1000:1\)的幾率反對假設(shè)\(B\):「我們處在世界1」。實際上,“假設(shè)的實例”是否支持該假設(shè)取決于所考慮的替代假設(shè)和先驗信息。
上述的例子也在一定程度上反應(yīng)了哲學(xué)和科學(xué)的區(qū)別。有人評價道:“哲學(xué)家可以自由地做自己喜歡的事,因為他們不需要做對任何事情”(233)。但是,一位負責任的科學(xué)家沒有這種自由,他不會僅僅依靠自己的直覺就斷言一個一般原則是正確的,并要求其它人采納它。
7 貝葉斯法理學(xué)
我們接下來考慮貝葉斯方法在法理學(xué)上的應(yīng)用。假定紐約市有人犯了謀殺罪,我們起初不知道是誰,但是知道紐約市有\(1000\)萬人口。在沒有其它信息的前提下,\(e(\text{有罪}\mid X) = -70\text{dB}\)就是任何特定的人有罪的合理信念。
假定現(xiàn)在我們知道某個人有動機,則他有罪的證據(jù)大小會變?yōu)?/p>
由于\(P(\text{有動機}\mid \text{有罪})\approx 1\)(也即我們認為犯罪者幾乎不可能完全沒有動機),因此,上式變?yōu)?/p>
因此,一個人有動機對他的定罪產(chǎn)生多大影響幾乎完全取決于一個無罪的人也有動機的概率\(P(\text{有動機}\mid \text{無罪})\)。
假設(shè)一位非常開明的法官已經(jīng)意識到了該事實,在引入嫌疑人動機的證據(jù)時,他指示助手為陪審團確定紐約市有多少人有動機。如果有動機的人數(shù)是\(N_m\),那么
(上述式子中的\(-1\)意思為扣除掉真正的犯罪者,也即有罪且有動機的人)
于是,式\((5)\)將簡化為
可以看到紐約市人口從公式中消失了。一旦我們知道有動機的人數(shù),城市有多大就不再重要了。請注意,即使\(N_m\)只有\(1\)或\(2\),上式也仍然適用:當\(N_m=1\)時,\(e(\text{有罪}\mid \text{有動機})\)可視為\(\infty\)(全紐約市只有嫌疑人一個人有動機,那犯罪者肯定就是他了);當\(N_m=2\)時,\(e(\text{有罪}\mid \text{有動機})\approx 0\)(已知在紐約市除了嫌疑人之外還有一個人有動機,我們無法確定誰是犯罪者)
如果進一步思考其物理意義,我們會發(fā)現(xiàn)這挺有趣。例如,如果我們現(xiàn)在得知不久前有人在犯罪現(xiàn)場附近看到了嫌疑人,則其意義幾乎完全取決于附近還有多少無辜者。
注 在上面這個例子中,我們試圖根據(jù)不完整的信息判斷亞里士多德命題的真實性,即被告是否進行了明確定義的行動。這是做為邏輯的概率論被設(shè)計適用的情況。但是,其它法律情況就可能大不相同了。例如,在醫(yī)療事故訴訟中,問題在于被告是否進行了合理判斷。由于沒有關(guān)于“合理判斷”的正式、精確定義,因此問題不是亞里士多德命題的真假命題(但是,如果確定他故意違反了我們在博客《概率論沉思錄:合情推理》中提到的合情推理要求之一,我們認為大多數(shù)陪審團成員會認為他有罪)。但是,這并不意味著概率論不適用于這種情況,我們認為在這種情況下相比于真相我們更關(guān)心價值判斷,后面在討論決策論和\(A_p\)分布與連續(xù)法則的時候會回到該主題。
參考
- [1] Schneider I. Jakob bernoulli, ars conjectandi (1713)[M]//Landmark Writings in Western Mathematics 1640-1940. Elsevier Science, 2005: 88-104.
- [2] Jaynes E T. Probability theory: The logic of science[M]. Cambridge university press, 2003.
- [3] 杰恩斯. 廖海仁譯. 概率論沉思錄[M]. 人民郵電出版社, 2024.
- [4] USTC:《高等統(tǒng)計物理:第一章》
- [5] 王球:貝葉斯知覺心理學(xué)
- [6] 《維基百科:球面度》

我們在上一篇博客中介紹了采用貝葉斯方法進行假設(shè)檢驗。其中,我們提到了公式:P(H | DX) = P(H | X)P(D | HX)/P(D | X),其中X為先驗信息,H為待檢驗的假設(shè),D為數(shù)據(jù)。該公式是我們試圖從數(shù)據(jù)中得出結(jié)論的一大類科學(xué)推斷問題背后的基本原理。在這一篇博客中,我們將看下采用貝葉斯方法進行的假設(shè)檢驗在實踐中是如何表現(xiàn)的。我們將討論一些概率論的“怪異”應(yīng)用。所謂“怪異”,即“偏離常規(guī)”,沒有正確地使用概率論導(dǎo)致了錯誤。大概任何全新的應(yīng)用都必須經(jīng)過這種類似的怪異探索階段。在許多情況下,我們認為今天的怪異應(yīng)用可能成為明天受人尊敬的有用應(yīng)用。我們將會使用貝葉斯分析來重新考慮這些問題,并消除掉其中的“怪異”,獲得一些有用的結(jié)論。
浙公網(wǎng)安備 33010602011771號