[概率論與數理統計]筆記:5.4 假設檢驗概述
5.4 假設檢驗概述
假設檢驗問題的提法
基本概述
在實際問題中,總體分布通常是未知的,可能是分布的類型未知,也可能是分布的相關參數未知,比如已知是正態分布,但是不知道參數\(\mu,\sigma^2\)是多少。
于是總體分布未知可以分為類型未知和參數未知兩種情況。
對于這些未知,我們可以提出一種推斷,比如說”假設總體服從正態分布“,或者說”假設正態分布的\(\mu\)是100“,這些推斷叫做假設。
因為參數未知進行的推斷叫做參數假設,而對其他未知比如類型未知進行的推斷叫做非參數假設。
假設之后,我們需要使用樣本來證明我們推斷的準確性,這個過程叫做假設檢驗。
對參數假設進行的檢驗叫做參數假設檢驗,對非參數假設進行的檢驗叫做非參數假設檢驗。
假設
- 待檢驗的假設稱為原假設或零假設,記作\(H_0\).
- 與之對立的假設稱為備擇假設或對立假設,記作\(H_1\).
二者是二選一,接受其中一個假設就意味著拒絕另一個假設。
一個假設檢驗問題通常簡記為\(H_0\leftrightarrow H_1\).
案例
有一新工藝,不知道是否能提高生產效率,那么\(H_0\)可以是"生產效率不變",而\(H_1\)是”新工藝使得生產效率提高“。
\(H_0\)可以理解為研究者想要推翻的結論,\(H_1\)是研究者想要證明的結論。
這個案例可以簡記為:\(H_0:生產效率不變\leftrightarrow H_1:生產效率提高\).
假設檢驗問題
- 顯著性假設檢驗問題——只提出唯一假設\(H_0\)
- \(H_0\)對\(H_1\)假設檢驗問題——提出兩個假設
基本思想與原理
小概率原理
小概率事件在一次試驗中不太可能發生。
論證邏輯
如果\(H_0\)成立導致了小概率事件發生,那么我們就拒絕假設\(H_0\). (即懷疑該假設的準確性)
基本概念
- 顯著性水平\(\alpha\):在假設檢驗問題中,小概率事件發生的概率,是事先指定的一個很小的正數。
- 拒絕域:小概率事件對應的樣本的取值區域。
當有樣本觀察值落在拒絕域內,就說明發生了小概率事件,于是便拒絕零假設。
假設檢驗與置信區間
假設檢驗與置信區間都需要構造樞軸量。
在求解置信區間的時候,樞軸量有一個未知的\(\mu\)或者\(\sigma^2\)需要求解,關注的是概率為\(1-\alpha\)的大概率事件。
而假設檢驗的時候,樞軸量中的\(\mu\)或\(\sigma^2\)會代入\(H_0\)假設的數值,然后再根據樣本的實際觀察值檢驗是否落在拒絕域內,關注的是概率為\(\alpha\)的小概率事件。
基本思想
- 構造一個含待檢驗參數和分布已知的樞軸量\(T\),在假設\(H_0\)成立的條件下,確定拒絕域。
- 檢驗法則:小概率事件是否發生。
- \(P\{(X_1,X_2,\cdots,X_n)\in W\}=\alpha\)對應小概率事件,其中\(W\)稱為\(H_0\)的拒絕域。
- \(P\{(X_1,X_2,\cdots,X_n)\in \overline{W}\}=1-\alpha\)對應大概率事件,其中\(\overline{W}\)對應\(H_0\)的接受域。
假設檢驗的一般步驟
第1步:提出\(H_0\leftrightarrow H_1\).
第2步:假設\(H_0\)成立,構造樞軸量\(T\),確定其分布。
第3步:對于給定的\(\alpha\),根據\(P\{(X_1,X_2,\cdots,X_n)\in W\}=\alpha\)求解確定拒絕域\(W\).
第4步:由樣本數據\((x_1,x_2,\cdots,x_n)\)求出統計量\(T\)的值:
- 如果\((x_1,x_2,\cdots,x_n)\in W\),則拒絕\(H_0\),接受\(H_1\).
- 如果\((x_1,x_2,\cdots,x_n)\in \overline{W}\),則接受\(H_0\),拒絕\(H_1\).
兩類錯誤
在假設檢驗中,我們通過樣本來檢驗假設的準確性。
而抽樣具有隨機性,并且有時樣本容量過小,或者其他原因,都會導致最終的推斷可能出現錯誤。
統計推斷是具有誤差的,比如天氣預報。
第一類錯誤
棄真:\(H_0\)是成立的,但是被拒絕了。
犯第一類錯誤的概率記為:
這里的\(\alpha\)記號和上文的小概率事件的概率不是同一個記號。
第二類錯誤
納偽/取偽:\(H_0\)不成立,但是被接受了。
犯第二類錯誤的概率記為:
目標與現實
我們希望\(\alpha\)和\(\beta\)越小越好,但是在實際問題中很難做到同時降低兩個錯誤率,除非將樣本容量\(n\)無限加大,而實際問題中抽樣是需要成本的,所以很難同時降低\(\alpha\)和\(\beta\)。
通常,我們更重視\(\alpha\),在\(\alpha\)很小的前提下,再盡量降低\(\beta\).
思路:寧信其有,不信其無,或者說嚴重點記作寧可殺錯不可放過。
案例:
-
某刑事案件中有犯人1個,但是只要是有嫌疑的人都會被調查訪問。
在這個案例中,第一類錯誤就是把犯人放跑了,即棄真;第二類錯誤是只要有嫌疑的人都會被調查,不管其是否真的是犯人,即納偽。顯然我們更關注的是真的那個犯人,所以我們的首要任務是要把第一類錯誤的錯誤率壓下去,即只要是有嫌疑的人都要被調查訪問。
-
體檢:不確定身體有沒有問題?那就檢查一下。
我們不希望“生病了但是不知道自己生病了”,也就是不希望出現第一類錯誤。就算是沒有的病,體檢的時候也要檢查一下,所以第二類錯誤在這個案例中是無關緊要的。
使用教材:
《概率論與數理統計》第四版 中國人民大學 龍永紅 主編 高等教育出版社

在實際問題中,總體分布通常是未知的,可能是分布的類型未知,也可能是分布的相關參數未知,比如已知是正態分布,但是不知道參數是多少。于是總體分布未知可以分為類型未知和參數未知兩種情況。
對于這些未知,我們可以提出一種推斷,比如說“假設總體服從正態分布”,或者說“假設正態分布的總體均值是100”,這些推斷叫做假設......
浙公網安備 33010602011771號