線性回歸

一、線性回歸的基本概念
線性回歸是一種通過線性模型來建立自變量（特征）和因變量（目標）之間關系的方法。
簡單線性回歸：只有一個自變量，模型為：y = θ0 + θ1x
多元線性回歸：有多個自變量，模型為：y = θ0 + θ1x1 + θ2x2 + ... + θnxn

二、損失函數
通常使用均方誤差（MSE）作為損失函數，來衡量預測值與真實值的差異。
MSE = (1/m) * Σ(真實值 - 預測值)^2 （m為樣本數量）
損失函數越小，模型擬合得越好。

三、梯度下降算法
梯度下降是一種優化算法，用于找到使損失函數最小化的參數θ。
步驟：
a. 初始化參數θ（通常初始化為0或隨機值）
b. 計算損失函數關于每個參數的梯度（偏導數）
c. 更新參數：θ = θ - 學習率 * 梯度
d. 重復b和c直到收斂或達到迭代次數

四、評估指標
均方誤差（MSE）：
MSE = (1/m) × Σ(y_true - y_pred)2
特點：對異常值敏感
范圍：0到+∞，越小越好
均方根誤差（RMSE）：
MSE的平方根
特點：與目標變量單位相同
范圍：0到+∞，越小越好
平均絕對誤差（MAE）：
MAE = (1/m) × Σ|y_true - y_pred|
特點：對異常值不如MSE敏感
范圍：0到+∞，越小越好
R平方（R2）：
R2 = 1 - (SS_res / SS_tot)
表示模型解釋的方差比例
范圍：0到1之間，越大越好
調整R2：
Adj_R2 = 1 - [(1-R2)(m-1)/(m-n-1)]
m樣本數量，n特征數量
特點：懲罰多余特征，防止過擬合

五、多元線性回歸
多個特征時的線性回歸。注意：特征之間可能存在量綱差異，需要進行特征縮放（歸一化/標準化）。
模型：y = θ0 + θ1x1 + θ2x2 + ... + θn*xn
矩陣表示：Y = Xθ，其中X是包含一列1（對應θ0）的特征矩陣。

六、正則化
為了防止過擬合，我們在損失函數中加入正則項。
嶺回歸（L2正則化）：
在損失函數中加入θ的平方和（不包括θ0），即λΣθ_i^2 (i從1到n)
特點：縮小所有系數，但不為零
適用：多重共線性嚴重時
Lasso回歸（L1正則化）：
在損失函數中加入θ的絕對值之和（不包括θ0），即λΣ|θ_i| (i從1到n)
特點：將某些系數壓縮為零，實現特征選擇
適用：特征數量很多時

七、多項式回歸
通過引入特征的高次項來擬合非線性關系。例如：y = θ0 + θ1x + θ2x^2
注意：多項式回歸仍然是線性回歸的一種，因為相對于參數θ是線性的。

八、模型假設和注意事項
線性關系：自變量和因變量之間存在線性關系。
獨立性：誤差項之間相互獨立。
同方差性：誤差項具有常數方差。
正態分布：誤差項服從正態分布。
多重共線性：在多元線性回歸中，特征之間不應有高度相關性。

posted @ 2025-10-28 22:11 Ehotian 閱讀(8) 評論(0) 收藏舉報

刷新頁面返回頂部

Ehotian

線性回歸

公告