斯坦?!靖怕逝c統計】課程筆記(五):EDA | 箱線圖
介紹箱線圖之前,需要先介紹若干個其需要的術語
min:整個樣本的最小值
max:整個樣本的最大值
Range:即整個樣本的取值范圍,Range = max - min
Inter-Quartile Range (IQR):四分之一range,即通過取3次中位數(median),將整個range分成四等份,其中間的兩份就是IQR,下面圖示說明一下:

計算方法:
1. 先對整個樣本值集合計算median,將數據分為兩等份:

2. 分別對前后兩份數據再次計算median:


3. 則Q3 - Q1 = IQR

使用IQR檢測outliers:
簡單說,就是一種規則而已:小于Q1 - 1.5倍IQR的數據,以及大于Q3 + 1.5倍IQR的數據,都是疑似的異常點:

箱線圖的繪制,依賴5個數字:min、Q1、M(median)、Q3、max,課程里起了個名字叫:Five Number Summary

- 左邊的箭頭,表示range,即最小值到最大值的范圍
- 右邊的箱子,表示IQR,其中箱子的上沿是Q3、下沿是Q1,中間的線是M。注意箱子的高度有意義,寬度沒意義
- 箱子下面的一豎一橫兩條線,表示最小有效范圍(即從Q1向下到Q1 - 1.5*IQR)【上圖中min和最小有小范圍重合了,所以不存在超小的異常值】
- 箱子上面的一豎一橫兩條線,表示最大有效范圍(即從Q3向上到Q3 + 1.5*IQR)
- 箱子最上面的那個點,表示整個樣本的最大值,但其不在有效范圍,是疑似異常值
下面這種箱線圖的表示方法,把樣本的分布和箱線圖并列畫在一起:

可以看出一些規律:箱子范圍內,M和Q1距離近,落在其中的樣本點也最密集,M和Q3距離遠,落在其中的樣本點也稀疏。所以通過箱線圖的M和Q1、Q3的位置,可以相對地判斷樣本分布的位置和疏密程度。
箱線圖的另一個用處是:可以同類特征相互比較:

上圖中是奧斯卡影帝影后的年齡箱線圖比對,可以看到很多有意思的現象:
- 影帝的獲獎年齡普遍大于影后,說明奧斯卡比較青睞成熟男演員和年輕女演員
- 影帝獲獎年齡在40-45歲左右為最高峰;影后在30-35歲為最高峰;
- 影帝的年齡范圍小于影后,最小的影后21歲,最大的影后80歲

浙公網安備 33010602011771號