正態分布(Normal Distribution)
1. 正態分布的定義
正態分布(Normal Distribution),又稱為高斯分布(Gaussian Distribution) ,是一種在統計學和概率論中最重要的連續概率分布。它廣泛應用于自然科學、社會科學、工程、金融等領域。
正態分布的概率密度函數(PDF)如下:
\[f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
\]
其中:
- \(x\):隨機變量,表示數據點
- \(\mu\):均值(mean),即數據的中心
- \(\sigma^2\):方差(variance),表示數據的離散程度
- \(\sigma\)(標準差,standard deviation):\(\sigma = \sqrt{\sigma^2}\)
2. 正態分布的參數解釋
在正態分布中,有兩個重要的參數:均值 \(\mu\) 和 方差 \(\sigma^2\)。
(1)均值 \(\mu\)
- 決定正態分布的中心位置。
- 直觀來說,它表示數據的平均值,即數據的集中趨勢。
- 若 \(\mu\) 變大,整個分布會向右平移;若 \(\mu\) 變小,分布會向左平移。
(2)方差 \(\sigma ^2\) 與標準差 $\sigma $
- 決定正態分布的寬度(離散程度)。
- 方差越大(即標準差越大),數據的波動性越大,分布曲線越“扁平”;方差越小,數據越集中,分布曲線越“陡峭”。
標準差的影響示意:
- 當 \(\sigma\) 較小時,數據點更集中于均值附近,分布更窄。
- 當 \(\sigma\) 較大時,數據點更分散,分布更寬。
3. 正態分布的性質
正態分布有以下重要的數學性質:
(1)對稱性
正態分布是關于均值 \(\mu\) 對稱的,即:
\[P(X \leq \mu - c) = P(X \geq \mu + c)
\]
這意味著數據左右分布是均勻的。
(2)68-95-99.7 經驗法則
對于任意正態分布:
- 約 68% 的數據落在 \(\mu ± \sigma\) 區間內。
- 約 95% 的數據落在 \(\mu ± 2\sigma\) 區間內。
- 約 99.7% 的數據落在 \(\mu ± 3\sigma\) 區間內。
這說明大部分數據點會集中在均值附近,離均值越遠的點出現的概率越小。
(3)標準正態分布
當正態分布的均值 μ=0,標準差 σ=1 時,我們稱其為標準正態分布(Standard Normal Distribution) ,記作:
\[Z \sim N(0,1)
\]
標準正態分布的概率密度函數為:
\[\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}
\]
其中,\(z = \frac{x - \mu}{\sigma}\) 為標準化變量。
標準正態分布的分布曲線是對稱的“鐘形曲線”,其均值為 0,標準差為 1,廣泛用于統計推斷,如計算 z-score(標準分數)。
4. 正態分布的計算
在實際應用中,我們經常需要計算某個數值 x 在正態分布中的概率。通常有以下兩種方法:
(1)直接計算概率密度
使用公式:
\[f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
\]
(2)標準化計算
由于直接計算積分較難,我們可以使用標準正態分布表:
-
先計算 標準化變量(Z-score):
\[z = \frac{x - \mu}{\sigma} \] -
然后查詢標準正態分布表,獲取累積分布函數(CDF)值,即:
\[P(X \leq x) = P(Z \leq z) \] -
對于非標準正態分布,可以通過變換 Z 來計算概率。
5. 應用案例
假設我們測量一批產品的重量,重量的分布服從正態分布,均值為50克,標準差為5克。我們希望可視化這些產品的重量分布,并計算重量在45到55克范圍內的概率。
import numpy as np
import matplotlib.pyplot as plt
plt.rcParams['font.size'] = 14
plt.rcParams['font.sans-serif'] = ['Microsoft Yahei']
from scipy.stats import norm
#參數設置
mu = 50 # 均值
sigma = 5 # 標準差
#生成正態分布數據
X = np.linspace(mu - 4 * sigma, mu + 4 * sigma, 1000)
y = norm.pdf(X, mu, sigma)
#可視化正態分布
plt.figure(figsize=(8, 6))
plt.plot(X, y)
plt.title('正態分布曲線')
plt.xlabel('重量(克)')
plt.ylabel('概率密度')
plt.show()


浙公網安備 33010602011771號