指數(shù)族和廣義線性模型推導(dǎo)
指數(shù)族和廣義線性模型推導(dǎo)
線性回歸和邏輯回歸
在推導(dǎo)指數(shù)族相關(guān)內(nèi)容前,先關(guān)注最普通的線性回歸和邏輯回歸。
之前我們默認(rèn)了損失函數(shù)定義為平方誤差,即如下?lián)p失函數(shù)($ x^{i} $ 默認(rèn)在最后一維補(bǔ)充常數(shù) $ 1 $ 以實現(xiàn)偏差):
其計算結(jié)果(預(yù)測值)是 $ \hat{y}^{(i)} = \theta ^ T x ^ {(i)} $。
而邏輯回歸,我們默認(rèn)采用 Sigmoid 函數(shù) $ g(z) = \frac{1}{1 + e^{-z}} \in (0, 1) $,我們的目標(biāo)是最大化似然函數(shù),并用梯度下降最大化對數(shù)似然估計:
邏輯回歸的預(yù)測值是 $ \hat{y} ^ {(i)} = \operatorname{round}(g(\theta ^ Tx ^ {(i)})) $。
接下來通過對指數(shù)族以及廣義線性模型的分析,指出線性回歸和邏輯回歸都是其中的特例。
指數(shù)族以及經(jīng)典分布
指數(shù)族是一類隨機(jī)分布,其概率密度為 \(P(y;\eta)=b(y)\exp(\eta^TT(y)-a(\eta))\)。需要指出的是,絕大多數(shù)情況(比如以下的三個例子)下,\(T(y)=y\)。因此,我們只需要確定在不同分布下,\(b(y),a(\eta)\) 的取值。
伯努利分布
隨機(jī)變量 \(y\) 只取 \(0,1\),\(y\sim B(\phi)\) 即 \(P(y=1)=\phi,P(y=0)=1-\phi\)。我們可以統(tǒng)一寫作:
接下來整理形式說明伯努利分布屬于指數(shù)族:
我們可以取:
其中 $ \phi = \frac{1}{1 + e^{-\eta}}, a(\eta) = ln(1 + e^{\eta}) $。
高斯分布
隨機(jī)變量 \(y\) 取實數(shù),\(P(y;\mu)=\frac{1}{\sqrt{2\pi}}\exp\left(-\frac{(y-\mu)^2}2\right)\)。同樣地整理形式:
取 \(b(y)=\frac{1}{\sqrt{2\pi}e ^ {-\frac{y ^ 2}2}}\),\(\eta=\mu\),\(a(\eta)=\frac 12\mu ^ 2=\frac 12\eta ^ 2\)。
泊松分布
隨機(jī)變量 \(y\) 取自然數(shù),\(P(y;\lambda)=\frac{e^{-\lambda}\lambda^{y}}{y!}\)。
取 \(b(y)=\frac{1}{y!}\),\(\eta=\ln\lambda\),\(a(\eta)=\lambda=e^{\eta}\)。
指數(shù)族的性質(zhì)
不加證明地指出:
- 期望 \(E(y;\eta)=\frac{\mathrmw0obha2h00}{\mathrmw0obha2h00\eta}a(\eta)\);
- 方差 \(V(y;\eta)=\frac{\mathrmw0obha2h00^2}{\mathrmw0obha2h00^2\eta}a(\eta)\)。
廣義線性模型
根據(jù)預(yù)測值的類型,我們可以選擇分布:
- 如果是 01 分類,則采用伯努利分布;
- 如果是連續(xù)實數(shù),則采用高斯分布(實際上大多數(shù)情況都可以用高斯分布近似處理,盡管無法證明其遵從高斯分布);
- 如果是正整數(shù),如事件發(fā)生次數(shù),則采用泊松分布。
廣義線性模型的方法是:無論確定何種指數(shù)族分布,總是預(yù)測 \(\eta=\theta ^ Tx\),并且采用最大似然估計來取得最合適的預(yù)測。設(shè)數(shù)據(jù)集為 \(\{(x ^ {(i)},y ^ {(i)})\}_{i=1}^m\),則似然函數(shù)為:
而我們的預(yù)測值是分布的期望 \(E(y;\eta)=\frac{\mathrmw0obha2h00}{\mathrmw0obha2h00\eta}a(\eta)\),這也是一種比較自然的選擇。
回顧線性回歸
線性回歸針對連續(xù)實數(shù),因此關(guān)注高斯分布。直接取對數(shù)似然函數(shù)(將一些與 \(\theta\) 無關(guān)的式子記為常數(shù) \(C\)):
最大化上式則需最小化平方誤差。也即,平方誤差的本質(zhì)是最大對數(shù)似然。
同時,高斯分布的均值為 \(\mu=\eta=\theta ^ Tx\),作為預(yù)測值,也不是隨意指定的。當(dāng)然也可以嚴(yán)格地對 \(a(\eta)\) 求導(dǎo)得到 \(E(y)=\mu\)。
回顧邏輯回歸
現(xiàn)在我們知道邏輯回歸實際上是在做伯努利分布的最大似然估計。那么為什么采用 sigmoid 函數(shù)為預(yù)測值?按照廣義線性回歸,返回值為期望,即 \(\phi\)。
而根據(jù)剛才的推導(dǎo) \(\phi=\frac{1}{1+e ^ {\theta ^ Tx}}\),也即 sigmoid 函數(shù)。

浙公網(wǎng)安備 33010602011771號