【第五章:計算機視覺-項目實戰之生成式算法實戰:擴散模型】2.CV黑科技:生成式算法理論-(2)擴散模型背后的數學原理 - 詳解
第五章:計算機視覺-項目實戰之生成式算法實戰:擴散模型
第二部分:CV黑科技——生成式算法理論
第二節:擴散模型背后的數學原理
一、擴散模型的數學本質
擴散模型(Diffusion Model)從本質上是一個基于概率分布建模的生成框架。
它憑借模擬一個馬爾可夫過程(Markov Process),在高維空間中建立數據分布的“正向破壞”和“反向重建”。
通過整個模型能夠用兩條核心概率鏈描述:
正向過程(Forward Diffusion Process)
從數據分布 () 開始,不斷添加噪聲,得到一系列的 (
):
其中每一步:
即在每個時間步 (t),大家向數據添加方差為 (\beta_t) 的高斯噪聲。反向過程(Reverse Diffusion Process)
模型學習如何從純噪聲逐步恢復原始數據:
其中:
在這個過程中,神經網絡(通常為UNet)負責學習如何預測“噪聲”或“去噪方向”,使得模型能從噪聲逐步還原出逼真的圖像。
二、擴散模型的訓練目標函數
擴散模型的核心訓練目標,是讓模型學會預測在每個時間步中加入的噪聲。
將真實噪聲 () 與模型預測噪聲 (
) 的差異最小化:
這實際上是一種噪聲預測回歸任務,模型通過不斷擬合噪聲分布,學習到數據分布的逆過程。
等價地,我們可以把模型理解為在學習以下映射:
三、擴散模型的概率推導核心
擴散模型許可看作一種變分推斷(Variational Inference, VI)方法。
最小化生成分布 (就是其目標) 與真實數據分布 (
) 的Kullback-Leibler散度(KL散度):
我們通過最大化變分下界(ELBO,Evidence Lower Bound)來搭建這一點:
展開后得到:
在實踐中,Ho 等人(2020)發現該損失可簡化為上文的噪聲回歸形式,從而顯著提升訓練效率。
四、擴散過程的解析公式
在實際推理時,我們不必須逐步采樣每一層噪聲,而可以依據封閉形式迅速計算任意時刻的噪聲混合:
其中:
這個公式使得我們許可在任意時間步t直接生成帶噪樣本,而無需逐步模擬正向過程。
五、反向去噪公式(采樣過程)
在生成階段,大家運用訓練好的模型逐步去噪:
其中:
(
):模型預測的噪聲;
(
):可調節的采樣方差;
(
):隨機噪聲項。
這個過程從純噪聲開始,不斷“去噪”,最終生成出逼真圖像。
六、從DDPM到DDIM:采樣加速的數學優化
DDPM(原始擴散模型)需要上百步采樣,推理非常慢。
后續的 DDIM(Denoising Diffusion Implicit Model) 提出通過非馬爾可夫性簡化采樣過程:
該方式允許使用更少的采樣步數(如20步)就能生成高質量圖像,大幅提升生成速度。
七、數學視角下的擴散模型總結
| 模型階段 | 數學核心 | 作用 |
|---|---|---|
| 正向擴散 | 加性高斯噪聲過程 | 模擬材料破壞 |
| 反向去噪 | 學習噪聲逆過程 | 數據重建 |
| 訓練目標 | 噪聲回歸損失函數 | 擬合真實分布 |
| 概率本質 | 變分推斷(VI) | 最大化ELBO |
| 數學優化 | DDIM、采樣調度 | 提升生成速度 |
八、總結
擴散模型的強大之處不僅在于效果,更在于其嚴格的概率建模基礎。
它不同于GAN的對抗博弈,而是通過數學可解釋的噪聲逆過程來學習真實世界的分布。
理解其數學原理后,我們會更清楚:
為什么它穩定;
為什么它能統一多種生成任務;
以及為什么它能生成出令人驚嘆的高保真圖像。

浙公網安備 33010602011771號