<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      遷移學習:互信息的變分上下界

      1 導引

      在機器學習,尤其是涉及異構數據的遷移學習/聯邦學習中,我們常常會涉及互信息相關的優化項,我研一下期的處女作(發在SDM'24上)也是致力于此(ArXiv論文鏈接:FedDCSR,GitHub源碼鏈接:FedDCSR)。其思想雖然簡單,但其具體的估計與優化手段而言卻大有門道,我們今天來好好總結一下,也算是對我研一的一個收尾。

      我們知道,隨機變量\(X\)\(Y\)的互信息定義為其聯合分布(joint)\(p(x, y)\)和其邊緣分布(marginal)的乘積\(p(x)p(y)\)之間的KL散度(相對熵)[1]

      \[\begin{aligned} I(X ; Y) &= D_{\text{KL}}\left(p(x, y) \parallel p(x)p(y)\right) \\ &=\mathbb{E}_{p(x, y)}\left[\log \frac{p(x, y)}{p(x)p(y)}\right] \end{aligned} \tag{1} \]

      直觀地理解,互信息表示一個隨機變量包含另一個隨機變量信息量(即統計依賴性)的度量;同時,互信息也是在給定另一隨機變量知識的條件下,原隨機變量不確定度的縮減量,即\(I(X; Y) = H(X) - H(X \mid Y) = H(Y) - H(Y\mid X)\)。當\(X\)\(Y\)一一對應時,\(I(X; Y) = H(X) = H(Y)\);當\(X\)\(Y\)相互獨立時\(I(X; Y)=0\)

      在機器學習的情境下,聯合分布\(p(x, y)\)一般是未知的,因此我們需要用貝葉斯公式將其繼續轉換為如下形式:

      \[\begin{aligned} I(X ; Y) &\overset{(1)}{=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(x \mid y)}{p(x)}\right] \overset{(2)}{=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(y \mid x)}{p(y)}\right] \end{aligned} \tag{2} \]

      那么轉換為這種形式之后,我們是否就可以開始對其進行估計了呢?答案是否定的。我們假設現在是深度表征學習場景,\(X\)是數據,\(Y\)是數據的隨機表征,則對于第\((1)\)種形式來說,條件概率分布\(p(x|y)=\frac{p (y|x)p(x)}{\int p(y|x)p(x)dx}\)是難解(intractable)的(由于\(p(x)\)未知);而對于第\((2)\)種形式而言,邊緣分布\(p(y)\)也需要通過積分\(p(y)=\int p(y \mid x)p(x)d x\)來進行計算,而這也是難解的(由于\(p(x)\)未知)。為了解決互信息估計的的難解性,我們的方法是不直接對互信息進行估計,而是采用變分近似的手段,來得出互信息的下界/上界做為近似,轉而對互信息的下界/上界進行最大化/最小化[2]

      2 互信息的變分下界(對應最大化)

      我們先來看互信息的變分下界。我們常常通過最大化互信息的下界來近似地對其進行最大化。具體而言,按照是否需要解碼器,我們可以將互信息的下界分為兩類,分別對應變分信息瓶頸(解碼項)[3][4]Deep InfoMax[5][6]這兩種方法。

      2.1 數據VS表征:變分信息瓶頸(解碼項)

      對于互信息的第\((1)\)種表示法即\(I(X ; Y){=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(x \mid y)}{p(x)}\right]\),我們已經知道條件分布\(p(x|y)\)是難解的,那么我們就采用變分分布\(q(x|y)\)將其轉變為可解(tractable)的優化問題。這樣就可以導出互信息的Barber & Agakov下界(由于KL散度的非負性):

      \[\begin{aligned} I(X ; Y)= & \mathbb{E}_{p(x, y)}\left[\log \frac{q(x \mid y)}{p(x)}\right]+\mathbb{E}_{p(y)}\left[D_{\text{K L}}(p(x \mid y) \mid q(x \mid y))\right] \\ \geq & \mathbb{E}_{p(x, y)}[\log q(x \mid y)]+H(X) \triangleq I_{\mathrm{BA}}, \end{aligned} \tag{3} \]

      這里\(H(X)\)\(X\)的微分熵,BA是論文[7]兩位作者名字的縮寫。當\(q(x|y)=p(x|y)\)時,該下界是緊的,此時上式的第一項就等于條件熵\(H(X|Y)\)

      上式可不可解取決于微分熵\(H(X)\)是否已知。幸運的是,限定在 \(X\)是數據,\(Y\)是表征 的場景下,\(H(X)=\mathbb{E}_{x\sim p(x)} \log p(x)\)僅涉及數據生成過程,和模型無關。這意味著我們只需要最大化\(I_{\text{BA}}\)的第一項,而這可以理解為最小化VAE中的重構誤差(失真,distortion)。此時,\(I_{\text{BA}}\)的梯度就與“編碼器”\(p(y|x)\)和變分“解碼器”\(q(x|y)\)相關,而這是易于計算的。因此,我們就可以使用該目標函數來學習一個最大化\(I(X; Y)\)的編碼器\(p(y|x)\),這就是大名鼎鼎的變分信息瓶頸(variational information bottleneck) 的思想(對應其中的解碼項部分)。

      2.2 表征VS表征:Deep Infomax

      我們在 2.1 中介紹的方法雖然簡單好用,但是需要構建一個易于計算的解碼器\(q(x|y)\),這在\(X\)是數據,\(Y\)是表征的時候非常容易,然而當 \(X\)\(Y\)都是表征 的時候就直接寄了,首先是因為解碼器\(q(x|y)\)是難以計算的,其次微分熵\(H(X)\)也是未知的。為了導出不需要解碼器的可解下界,我們轉向去思考\(q(x|y)\)變分族的的非標準化分布(unnormalized distributions)。

      我們選擇一個基于能量的變分族,它使用一個判別函數/網絡(critic)\(f(x, y): \mathcal{X} \times \mathcal{Y}\rightarrow \mathbb{R}\),并經由數據密度\(p(x)\)縮放:

      \[q(x \mid y)=\frac{p(x)}{Z(y)} e^{f(x, y)}, \text { where } Z(y)=\mathbb{E}_{p(x)}\left[e^{f(x, y)}\right]\tag{4} \]

      我們將該分布代入公式\((3)\)中的\(I_{\text{BA}}\)中,就導出了另一個互信息的下界,我們將其稱為UBA下界(記作\(I_{\text{UBA}}\)),可視為Barber & Agakov下界的非標準化版本(Unnormalized version):

      \[\mathbb{E}_{p(x, y)}[f(x, y)]-\mathbb{E}_{p(y)}[\log Z(y)] \triangleq I_{\mathrm{UBA}} \tag{5} \]

      \(f(x, y)=\log p(y|x) + c(y)\)時,該上界是緊的,這里\(c(y)\)僅僅是關于\(y\)的函數(而非\(x\))。注意在代入過程中難解的微分熵\(H(X)\)被消掉了,但我們仍然剩下一個難解的\(\log\)配分函數\(\log Z(y)\),它妨礙了我們計算梯度與評估。如果我們對\(\mathbb{E}_{p(y)}[\log Z(y)]\)這個整體應用Jensen不等式(\(\log\)為凹函數),我們能進一步導出式\((5)\)的下界,即大名鼎鼎的Donsker & Varadhan下界[7]

      \[I_{\mathrm{UBA}} \geq \mathbb{E}_{p(x, y)}[f(x, y)]-\log \mathbb{E}_{p(y)}[Z(y)] \triangleq I_{\mathrm{DV}} \tag{6} \]

      然而,該目標函數仍然是難解的。接下來我們換個角度,我們不對\(\mathbb{E}_{p(y)}[\log Z(y)]\)這個整體應用Jensen不等式,而考慮對里面的\(\log Z(y)\)應用Jensen不等式即\(\log Z(y)=\log \mathbb{E}_{p(x)}\left[e^{f(x, y)}\right]\geq\mathbb{E}_{p(x)}\left[\log e^{f(x, y)}\right]=\mathbb{E}_{p(x)}\left[f(x, y)\right]\),那么我們就可以導出式\((5)\)的上界來對其進行近似:

      \[I_{\mathrm{UBA}} \leq \mathbb{E}_{p(x, y)}[f(x, y)]-\mathbb{E}_{p(x)p(y)}\left[f(x, y)\right]\triangleq I_{\mathrm{MINE}} \tag{7} \]

      然而式\((5)\)本身做為互信息的下界而存在,因此\(I_{\text{MINE}}\)嚴格意義上講既不是互信息的上界也不是互信息的下界。不過這種方法可視為采用期望的蒙特卡洛近似來評估\(I_{\text{DV}}\),也就是作為互信息下界的無偏估計。已經有工作證明了這種嵌套蒙特卡洛估計器的收斂性和漸進一致性,但并沒有給出在有限樣本下的成立的界[8][9]

      \(I_{\text{MINE}}\)思想的基礎之上,論文Deep Infomax[6]又向前推進了一步,認為我們無需死抱著信息的KL散度形式不放,可以大膽采用非KL散度的形式。事實上,我們主要感興趣的是最大化互信息,而不關心它的精確值,于是采用非KL散度形式可以為我們提供有利的trade-off。比如我們就可以基于\(p(x, y)\)\(p(x)p(y)\)Jensen-Shannon散度(JSD),來定義如下的JS互信息估計器:

      \[ I_{\text{JSD}} \triangleq \mathbb{E}_{p(x, y)}\left[-\operatorname{sp}\left(-f\left(x, y\right)\right)\right]-\mathbb{E}_{p(x^{\prime})p(y)}\left[\operatorname{sp}\left(f\left(x^{\prime}, y\right)\right)\right], \tag{8} \]

      這里\(x\)是輸入樣本,\(x\prime\)是采自\(p(x^{\prime}) = p(x)\)的負樣本,\(\text{sp}(z) = \log (1+e^x)\)\(\text{softplus}\)函數。這里判別網絡\(f\)被優化來能夠區分來自聯合分布的樣本對(正樣本對)和來自邊緣乘積分布的樣本對(負樣本對)。

      此外,噪聲對比估計(NCE)[10]做為最先被采用的互信息下界(被稱為“InfoNCE”),也可以用于互信息最大化:

      \[I(X; Y)\geq \mathbb{E}_{p(x, y)}\left[f\left(x, y\right)-\mathbb{E}_{p(x^{\prime})}\left[\log \sum_{x^{\prime}} e^{f\left(x^{\prime}, y\right)}\right]\right]\triangleq I_{\text{InfoNCE}} \tag{9} \]

      對于Deep Infomax而言,\(I_{\text{JSD}}\)\(I_{\text{InfoNCE}}\)形式的之間差別在于負樣本分布\(p(x^{\prime})\)的期望是套在正樣本分布\(p(x, y)\)期望的里面還是外面,而這個差別就意味著對于\(\text{DV}\)\(\text{JSD}\)而言一個正樣本只需要一個負樣本,但對于\(\text{InfoNCE}\)而言就是一個正樣本就需要\(N\)個負樣本(\(N\)為batch size)。此外,也有論文[6]分析證明了\(I_{\text{JSD}}\)對負樣本的數量不敏感,而\(I_{\text{InfoNCE}}\)的表現會隨著負樣本的減少而下降。

      3 互信息的變分上界(對應最小化)

      我們接下來來看互信息的變分上界。我們常常通過最小化互信息的上界來近似地對互信息進行最小化。具體而言,按照是否需要編碼器,我們可以將互信息的下界分為兩類,而這兩個類別分別就對應了變分信息瓶頸的編碼項[4]解耦表征學習[11]

      3.1 數據VS表征:變分信息瓶頸(編碼項)

      對于互信息的第\((2)\)種表示法即\(I(X ; Y){=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(y \mid x)}{p(y)}\right]\),我們已經知道邊緣分布\(p(y)=\int p(y \mid x)p(x)d x\)是難解的。但是限定在 \(X\)是數據,\(Y\)是表征 的場景下,我們能夠通過引入一個變分近似\(q(y)\)來構建一個可解的變分上界:

      \[\begin{aligned} I(X ; Y) & \equiv \mathbb{E}_{p(x, y)}\left[\log \frac{p(y \mid x)}{p(y)}\right] \\ & \overset{(1)}{=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(y \mid x) q(y)}{q(y) p(y)}\right] \\ & \overset{(2)}{=}\mathbb{E}_{p(x, y)}\left[\log \frac{p(y \mid x)}{q(y)}\right]-D_{\text{K L}}(p(y) \| q(y)) \\ & \overset{(3)}{\leq} \mathbb{E}_{p(x)}\left[D_{\text{K L}}(p(y \mid x) \| q(y))\right] \triangleq R, \end{aligned} \tag{10} \]

      注意上面的\((1)\)是分子分母同時乘以\(q(y)\)\((2)\)是單獨配湊出KL散度;\((3)\)是利用KL散度的非負性(證明變分上下界的常用技巧)。最后得到的這個上界我們在生成模型在常常被稱為Rate[12](也就是率失真理論里的那個率),故這里記為\(R\)。當\(q(y)=p(y)\)時該上界是緊的,且該上界要求\(\log q(y)\)是易于計算的。該變分上界經常在深度生成模型(如VAE)[13][14] 被用來限制隨機表征的容量。在變分信息瓶頸[4]這篇論文中,該上界被用于防止表征攜帶更多與輸入有關,但卻和下游分類任務無關的信息(即對應其中的編碼項部分)。

      3.2 表征VS表征:解耦表征學習

      上面介紹的方法需要構建一個易于計算的編碼器\(p(y|x)\),但應用場景也僅限于在\(X\)是數據,\(Y\)是表征的情況下,當 \(X\)\(Y\)都是表征 的時候(即對應解耦表征學習的場景)也會遇到我們在2.2中所面臨的問題,從而不能夠使用了。那么我們能不能效仿2.2中的做法,對導出的\(I_{\text{JSD}}\)\(I_{\text{InfoNCE}}\)加個負號,從而將互信息最大化轉換為互信息最小化呢?當然可以但是效果不會太好。因為對于兩個分布而言,拉近它們距離的結果是確定可控的,但直接推遠它們距離的結果就是不可控的了——我們無法掌控這兩個分布推遠之后的具體形態,導致任務的整體表現受到負面影響。那么有沒有更好的辦法呢?

      我們退一步思考:最小化互信息\(I(X; Y)\)的難點在于\(X\)\(Y\)都是隨機表征,那么我們可以嘗試引入數據隨機變量\(D\),使得互信息\(I(X; Y)\)可以進一步拆分為\(D\)\(X\)\(Y\)之間的互信息(如\(I(D; X)\)以及\(I(D; Y)\)。已知三個隨機變量的互信息(稱之為Interation information[1])的定義如下:

      \[\begin{aligned} I(X ; Y ; D)&\overset{(1)}{=}I(X ; Y)-I(X ; Y \mid D)\\ &\overset{(2)}{=}I(X ; D)-I(X ; D \mid Y)\\ &\overset{(3)}{=}I(Y ; D)-I(Y ; D \mid X) \end{aligned} \tag{11} \]

      聯立上述的等式\((1)\)和等式\((2)\),我們有:

      \[ I(X ; Y) = I(X; D) - I (X ; D \mid Y) + I(X; Y \mid D) \tag{12} \]

      對解耦表征學習而言,在概率圖模型中的結構化假設(V型結構)中\(X\)\(Y\)共同為\(D\)的潛在因子,而\(X\)\(Y\)互不影響(詳情可參見論文[11])。\(X\)\(Y\)\(D\)對應的結構化概率關系如下圖所示:

      反映在后驗概率上即表征后驗分布\(q\)滿足\(q\left(X \mid D\right)=q\left(X \mid D, Y\right)\),因此上述等式的最后一項就消失了:

      \[\begin{aligned} I\left(X ; Y \mid D\right) &= H\left(X \mid D\right)-H\left(X \mid D, Y\right)\\ &=H\left(X \mid D\right)-H\left(X \mid D\right)=0 \end{aligned} \tag{13} \]

      這樣我們就有:

      \[\begin{aligned} I\left(X ; Y\right) &\overset{(1)}{=}I\left(D; X\right)-I\left(D ; X \mid Y\right) \\ & \overset{(2)}{=}I\left(D ; X\right)+I\left(D ; Y\right)-I\left(D ; X, Y\right) \end{aligned} \tag{14} \]

      上述的\((1)\)是由于\(I(X; Y \mid D)=0\)\((2)\)是由于互信息的鏈式法則即\(I(D; X, Y)=I(D; Y) + I(D; X \mid Y)\)

      \(I(X; Y)\)等價變換至此,真相已經逐漸浮出水面:我們可以可以通過最小化\(I\left(D ; X\right)\)\(I\left(D ; Y\right)\),最大化\(I\left(D ; X, Y\right)\)來完成對\(I(X; Y)\)的最小化。其直觀的物理意義也就是懲罰表征\(X\)\(Y\)中涵蓋的總信息,并使得\(X\)\(Y\)共同和數據\(D\)相關聯。

      基于我們在\(3.1\)\(2.1\)中所推導的\(I(D; X)\)\(I(D; Y)\)的變分上界與\(I(D; X, Y)\)的變分下界,我們就得到了\(I(X; Y)\)的變分上界:

      \[\begin{aligned} I\left(X ; Y\right) &\leq \mathbb{E}_{p(D)}\left[D_{\text{K L}}(q(x \mid D) \| p(x)) + D_{\text{K L}}(q(y \mid D) \| p(y))\right] \\ &- \mathbb{E}_{p(D)}\left[\mathbb{E}_{q(x | D)q(y|D)}[\log p(D \mid x, y)]\right] \end{aligned} \tag{15} \]

      直觀地看,上式地物理意義為使后驗\(q(x\mid D)\)\(q(y\mid D)\)都趨近于各自的先驗分布(一般取高斯分布),并減小\(X\)\(Y\)\(D\)的重構誤差,直覺上確實符合表征解耦的目標。

      4 總結

      總結起來,互信息的所有上下界可以表示為下圖[2](包括我們前面提到的\(I_{\text{BA}}\)\(I_{\text{UBA}}\)\(I_{\text{DV}}\)\(I_{\text{MINE}}\)\(I_{\text{InfoNCE}}\)等):

      圖中節點的代表了它們估計與優化的易處理性:綠色的界表示易估計也易于優化,黃色的界表示易于優化但不易于估計,紅色的界表示既不易于優化也不易于估計。孩子節點通過引入新的近似或假設來從父親節點導出。

      參考

      • [1] Cover T M. Elements of information theory[M]. John Wiley & Sons, 1999.
      • [2] Poole B, Ozair S, Van Den Oord A, et al. On variational bounds of mutual information[C]//International Conference on Machine Learning. PMLR, 2019: 5171-5180.
      • [3] Tishby N, Pereira F C, Bialek W. The information bottleneck method[J]. arXiv preprint physics/0004057, 2000.
      • [4] Alemi A A, Fischer I, Dillon J V, et al. Deep variational information bottleneck[J]. arXiv preprint arXiv:1612.00410, 2016.
      • [5] Belghazi M I, Baratin A, Rajeshwar S, et al. Mutual information neural estimation[C]//International conference on machine learning. PMLR, 2018: 531-540.
      • [6] Hjelm R D, Fedorov A, Lavoie-Marchildon S, et al. Learning deep representations by mutual information estimation and maximization[J]. arXiv preprint arXiv:1808.06670, 2018.
      • [7] Barber D, Agakov F. The im algorithm: a variational approach to information maximization[J]. Advances in neural information processing systems, 2004, 16(320): 201.
      • [8] Rainforth T, Cornish R, Yang H, et al. On nesting monte carlo estimators[C]//International Conference on Machine Learning. PMLR, 2018: 4267-4276.
      • [9] Mathieu E, Rainforth T, Siddharth N, et al. Disentangling disentanglement in variational autoencoders[C]//International conference on machine learning. PMLR, 2019: 4402-4412.
      • [10] Oord A, Li Y, Vinyals O. Representation learning with contrastive predictive coding[J]. arXiv preprint arXiv:1807.03748, 2018.
      • [11] Hwang H J, Kim G H, Hong S, et al. Variational interaction information maximization for cross-domain disentanglement[J]. Advances in Neural Information Processing Systems, 2020, 33: 22479-22491.
      • [12] Alemi A, Poole B, Fischer I, et al. Fixing a broken ELBO[C]//International conference on machine learning. PMLR, 2018: 159-168.
      • [13] Rezende D J, Mohamed S, Wierstra D. Stochastic backpropagation and approximate inference in deep generative models[C]//International conference on machine learning. PMLR, 2014: 1278-1286.
      • [14] Kingma D P, Welling M. Auto-encoding variational bayes[J]. arXiv preprint arXiv:1312.6114, 2013.
      posted @ 2023-09-21 00:22  orion-orion  閱讀(3404)  評論(6)    收藏  舉報
      主站蜘蛛池模板: 久久久久青草线蕉亚洲| 中文字幕少妇人妻精品| 欧美午夜小视频| 精品国产一区二区三区四区阿崩| 亚洲暴爽av天天爽日日碰| 中文字幕日韩精品东京热| 最新国产AV最新国产在钱| 国产麻花豆剧传媒精品mv在线| ww污污污网站在线看com| 国产亚洲综合另类色专区| 国产综合久久亚洲综合| 日本肥老妇色xxxxx日本老妇| 国产av亚洲精品ai换脸电影| 色综合天天综合网中文伊| 欧美国产日产一区二区| 巨胸喷奶水视频www免费网站| 亚洲 日韩 国产 制服 在线| 日韩卡一卡2卡3卡4卡| 国产肉丝袜在线观看| 弥渡县| 国产高在线精品亚洲三区| 亚洲av免费成人精品区| 久久99精品久久久大学生 | 国产精品大片中文字幕| 合肥市| 亚洲天堂一区二区三区三州| 国内视频偷拍久久伊人网| 毛片免费观看天天干天天爽| 色爱综合另类图片av| 日韩精品无码一区二区三区视频| 亚洲爆乳WWW无码专区| 又黄又爽又色的少妇毛片| 黑人异族巨大巨大巨粗| 综合色天天久久| 亚洲理论在线A中文字幕| 精品国产一区二区三区香蕉| 国产成人永久免费av在线| 日韩一区二区在线看精品| 99精品国产在热久久婷婷| 最近中文字幕完整版hd| 日韩av一区二区高清不卡|