最小一乘回歸
背景
我們都非常熟悉傳統(tǒng)的最小二乘回歸,但是最小二乘回歸容易受到個別極端值的影響,設想一下不帶變量的情形下的最小二乘回歸,即
\[\operatorname{argmin}_{\beta}\sum_{i=1}^n(y_i-\beta)^2
\]
容易知道這時的最小二乘估計\(\hat{\beta}=\bar{y}\)
假設我們的數(shù)據(jù)為\(1,2,3,4,5\)代表著班上某5個同學的零花錢,則我們的估計值是\(3\),但如果這時候第5個同學的數(shù)據(jù)沒收集到,收集到的是另外一個土豪同學的數(shù)據(jù),他的零花錢是100,則我們的數(shù)據(jù)為\(1,2,3,4,100\),此時估計值就成了\(22\),也就是說這時候我們對班上其他同學的零花錢估計為\(22\),但事實上可能這個班除了這個土豪同學有高達100的零花錢外,其他同學零花錢都很少,此時我們這個估計就顯得不靠譜了。這種現(xiàn)象在統(tǒng)計學中叫做不穩(wěn)健(not robust)。設想還是上述例子,但如果我們采用中位數(shù)做估計,那么其實兩次的估計都是\(3\),這時候是不是好很多了,一定程度上抵御了某些個別的極端值對估計的影響。
正是基于這樣的思想,人們提出了最小一乘回歸,即
\[\operatorname{argmin}_{\beta_0,\cdots,\beta_p}\sum_{i=1}^{n}|y_{i}-\beta_0-\sum_{i=1}^{p}\beta_{i} x_{i}|
\]
如果考慮不帶變量的情形下的最小一乘回歸,即
\[\operatorname{argmin}_{\beta}\sum_{i=1}^n|y_i-\beta|
\]
則容易知道這時的最小二乘估計\(\hat{\beta}=\operatorname{med}_i{\{y_i\}}\),即數(shù)據(jù)的中位數(shù)
最小一乘回歸的求解
-
對變量個數(shù)多時,轉(zhuǎn)化為線性規(guī)劃問題,容易驗證原始最小一乘回歸優(yōu)化問題,等價于如下的線性規(guī)劃
\[\begin{align*}&\operatorname{argmin}_{\beta_0,\cdots,\beta_p}\sum_{i=1}^{n}d_i^++d_i^-\\&\text{s.t}\ y_{i}-\beta_0-\sum_{i=1}^{p}\beta_{i} x_{i}-(d_i^+-d_i^-)=0\ i=1,\cdots,n\end{align*} \]
參考文獻
- 陳希孺. 最小一乘線性回歸(上)[J]. 數(shù)理統(tǒng)計與管理, 1989(05):48-55.
- 陳希孺. 最小一乘線性回歸(下)[J]. 數(shù)理統(tǒng)計與管理, 1989(05):48-55.
- 李仲來. 最小一乘法介紹[J]. 數(shù)學通報, 1992(02).
浙公網(wǎng)安備 33010602011771號