聯邦學習：聯邦場景下的域泛化

然而，目前大多數域泛化方法需要將不同領域的數據進行集中收集。然而在現實場景下，由于隱私性的考慮，數據常常是分布式收集的。因此我們需要考慮聯邦域泛化（federated domain generalization, FedDG）方法。這里需要注意的是，傳統的域泛化方法常常要求直接對齊表征或操作數據，這在聯邦場景下是違反數據隱私性的。此外對于跨域的聯邦學習，由于客戶端異構的數據分布/領域漂移（如不同的圖像風格）所導致的模型偏差（bias），直接聚合本地模型的參數也會導致次優（sub-optimal）的全局模型，從而更難泛化到新的目標域。

1 導引

1.1 域泛化

域泛化（domain generalization, DG） ^[1][2]旨在從多個源域中學習一個能夠泛化到未知目標域的模型。形式化地說，給定\(K\)個訓練的源域數據集\(\mathcal{S}=\left\{\mathcal{S}^k \mid k=1, \cdots, K\right\}\)，其中第\(k\)個域的數據被表示為\(\mathcal{S}^k = \left\{\left(x_i^k, y_i^k\right)\right\}_{i=1}^{n^k}\)。這些源域的數據分布各不相同：\(P_{X Y}^k \neq P_{X Y}^l, 1 \leq k \neq l \leq K\)。域泛化的目標是從這\(K\)個源域的數據中學習一個具有強泛化能力的模型：\(h: \mathcal{X}\rightarrow \mathcal{Y}\)，使其在一個未知的測試數據集\(\mathcal{T}\)（即\(\mathcal{T}\)在訓練過程中不可訪問且\(P_{X Y}^{\mathcal{T}} \neq P_{X Y}^k \text { for } k \in\{1, \cdots, K\}\)）上具有最小的誤差：

\[\min_{h} \mathbb{E}_{(x, y) \in \mathcal{T}}[\ell(h(x), y)] \]

這里\(\mathbb{E}\)和\(\ell(\cdot, \cdot)\)分別為期望和損失函數。域泛化示意圖如下圖所示：

在對域泛化的理論分析方面，我們常常會在協變量偏移（即標簽函數\(h^*\)或者說條件分布\(P_{Y\mid X}\)在所有域中都相同）的假設下考慮特定目標域上的風險。設\(\epsilon^1, \cdots, \epsilon^K\)為源域風險，\(\epsilon^t\)為目標域風險。則在協變量偏移的假設下，每個域均可以通過數據\(\mathcal{X}\)上的分布刻畫，故域泛化的學習過程可以被認為是在源域分布的凸包\(\Lambda=\{\sum_{k=1}^K\pi_kP^k_X \mid \pi \in \Delta_K\}\)內去找一個目標域分布\(P^t_X\)^[22]的最優近似（優化變量\(\pi\)），其中\(\Delta_K\)是\((K - 1)\)維的單純形，每個\(\pi\)表示一個歸一化的混合權重。源域和目標域之間的差異可以通過\(\mathcal{H}-\text{divergence}\)來度量，\(\mathcal{H}-\text{divergence}\)同時包括了假設空間的影響。

域泛化的誤差界 設\(\gamma:=\min _{\pi \in \Delta_M} d_{\mathcal{H}}\left(P_X^t, \sum_{k=1}^K \pi_k P_X^k\right)\)為從凸包\(\Lambda\)到目標域特征分布\(P^t_X\)的距離，且\(P_X^*:=\sum_{k=1}^K \pi_k^* P_X^k\)為在\(\Lambda\)內的最優近似（可以理解為\(P^t_X\)在凸包\(\Lambda\)中的投影）。設\(\rho:=\sup _{P_X^{\prime}, P_X^{\prime \prime} \in \Lambda} d_{\mathcal{H}}\left(P_X^{\prime}, P_X^{\prime \prime}\right)\)為凸包\(\Lambda\)的直徑。則目標域\(\mathcal{T}\)的風險\(\epsilon^t(h)\)、源域\(k\)的風險\(\epsilon^k(h)\)與\(\gamma\)、\(\rho\)之間滿足如下的關系：

\[\epsilon^t(h) \leq \sum_{k=1}^K \pi_k^* \epsilon^k(h)+\frac{\gamma+\rho}{2}+\lambda_{\mathcal{H},\left(P_X^t, P_X^*\right)}， \]

這里\(\lambda_{\mathcal{H},\left(P_X^t, P_X^*\right)}\)是目標域和最優近似分布\(P^*_X\)的理想聯合風險，在很多情況下我們假設它是一個極小的值，可以忽略不計。那么我們想要最小化目標域的風險，可以：

最小化源域風險（對應上界的第一項）；
最小化源域和目標域之間的表征分布差異來在表征空間中減小\(\gamma\)和\(\rho\)（對應上界的第二項）。

當然上述理論只是提供了一個視角，亦有文獻^[23]基于Mixup和領域不變表征學習提出了新的理論，他們的方法表明，域不變表征的Mixup本質上是在增大訓練域的覆蓋范圍。還有許多學者進行了基于信息論^[24]和對抗訓練^{[22][24][25][26]}的研究。

域泛化的方法 目前為了解決域泛化中的域偏移（domain shift） 問題，已經提出了許多方法，大致以分為下列三類：

數據操作（data manipulation） 這種方法旨在通過數據增強（data augmentation）或數據生成（data generation）方法來豐富數據的多樣性，從而輔助學習更有泛化能力的表征。其中數據增強方法常利用數據變換、對抗數據增強（adversarial data augmentation）^[3]等手段來增強數據；數據生成方法則通過Mixup（也即對數據進行兩兩線性插值）^[4]等手段來生成一些輔助樣本。
表征學習（representation learning） 這種方法旨在通過學習領域不變表征（domain-invariant representations），或者對領域共享（domain-shared）和領域特異（domain-specific）的特征進行特征解耦（feature disentangle），從而增強模型的泛化性能。該類方法我們在往期博客《尋找領域不變量：從生成模型到因果表征》和《跨域推薦：嵌入映射、聯合訓練和解耦表征》中亦有詳細的論述。其中領域不變表征的學習手段包括了對抗學習^[5]、顯式表征對齊（如優化分布間的MMD距離）^[6]等等，而特征解耦則常常通過優化含有互信息（信息瓶頸的思想）或KL散度^[7]的損失項來達成，其中大多數會利用VAE等生成模型。
學習策略（learning stategy） 這種方法包括了集成學習^[8]、元學習^[9]等學習范式。其中，以元學習為基礎的方法則利用元學習自發地從構造的任務中學習元知識，這里的構造具體而言是指將源域數據集\(\mathcal{S}\)按照域為單位來拆分成元訓練（meta-train）部分\(\bar{\mathcal{S}}\)和元測試（meta-test）部分\(\breve{\mathcal{S}}\)以便對分布偏移進行模擬，最終能夠在目標域\(\mathcal{T}\)的final-test中取得良好的泛化表現。

1.2 聯邦域泛化

然而，目前大多數域泛化方法需要將不同領域的數據進行集中收集。然而在現實場景下，由于隱私性的考慮，數據常常是分布式收集的。因此我們需要考慮聯邦域泛化（federated domain generalization, FedDG） ^[21]方法。形式化的說，設\(\mathcal{S}=\left\{\mathcal{S}^1, \mathcal{S}^2, \ldots, \mathcal{S}^K\right\}\)表示在聯邦場景下的\(K\)個分布式的源域數據集，每個源域數據集包含數據和標簽對\(\mathcal{S}^k=\left\{\left(x_i^k, y_i^k\right)\right\}_{i=1}^{n^k}\)，采樣自域分布\(P_{X Y}^k\)。聯邦域泛化的目標是利用\(K\)個分布式的源域學習模型\(h_\theta: \mathcal{X} \rightarrow \mathcal{Y}\)，該模型能夠泛化到未知的測試域\(\mathcal{T}\)。聯邦域泛化的架構如下圖所示：

這里需要注意的是，傳統的域泛化方法常常要求直接對齊表征或操作數據，這在聯邦場景下是違反數據隱私性的。此外對于跨域的聯邦學習，由于客戶端異構的數據分布/領域偏移（如不同的圖像風格）所導致的模型偏差（bias），直接聚合本地模型的參數也會導致次優（sub-optimal）的全局模型，從而更難泛化到新的目標域。因此，許多傳統域泛化方法在聯邦場景下都不太可行，需要因地制宜進行修改，下面試舉幾例：

對于數據操作的方法，我們常常需要用其它領域的數據來對某個領域的數據進行增強（或進行新數據的插值生成），而這顯然違反了數據隱私。目前論文的解決方案是不直接傳數據，而傳數據的統計量來對數據進行增強^[10]，這里的統計量指圖片的style（即圖片逐通道計算的均值和方差）等等。
對于表征學習的方法，也需要在對不同域的表征進行共享/對比的條件下獲得領域不變表征（或對表征進行分解），而傳送表征事實上也違反了數據隱私。目前論文采用的解決方案包括不顯式對齊表征，而是使得所有領域的表征顯式/隱式地對齊一個參考分布（reference distribution）^[11][12]，這個參考分布可以是高斯，也可以由GAN來自適應地生成。也有論文不直接對齊表征，而是對齊不同客戶端的類別原型^[15]。
基于學習策略的方法，如元學習也需要利用多個域的數據來構建meta-train和meta-test，并進行元更新（meta-update），而這也違反了數據隱私性。目前論文的解決方案是使用來自其它域的變換后數據來為當前域構造元學習數據集^[13]，這里的變換后數據指圖像的幅度譜等等。此外，有的方法還針對聯邦場景的特點，對聯邦學習的策略如聚合方式等進行修改^[16][18]。

2 論文閱讀

2.1 ICLR20 《Federated Adversarial Domain Adaptation》[14]

嚴格來說，本文屬于聯邦域自適應范疇（與域泛化的區別在于目標域在訓練過程中可訪問），不過其方法非常經典，對于聯邦域泛化也有較強的指導意義，故在這里也記錄一下。本篇論文采用了基于表征學習的方法。具體而言，本文采用對抗學習方法的方法來使得領域間的表征進行對齊，并進一步采用表征解耦來增強知識遷移。本文方法整體的架構如下圖所示：

如上圖所示，每個源域上都設置有特征提取器\(G_k\)，目標域\(T\)上亦設置有特征提取器\(G_t\)（\(G_i\)、\(G_t\)都將做為GAN的生成器使用）。對于每個源域-目標域對\((S_k, T)\)，域識別器\(DI\)（做為GAN的判別器）負責去區分源域和目標域的表征，而生成器\((G_k, G_t)\)則盡量去欺騙\(DI\)，從而以對抗的方式來完成表征分布的對齊。注意這里\(DI\)只能訪問\(G_i\)和\(G_t\)的輸出表征，故并不違反聯邦的隱私設置。事實上我們在博客《聯邦學習：聯邦場景下的多源知識圖譜嵌入》中提到的聯邦跨域知識圖譜對齊方法也是基于GAN的思想。

接下來我們來看GAN是如何優化的。首先優化是判別器\(DI_k\)。設第\(k\)個源域的數據為\(\mathbf{X}^{S_k}\)，目標域數據為\(\mathbf{X}^T\)，則判別器\(DI_k\)的目標函數定義如下：

\[\begin{aligned} L_{{a d v}_{{DI}_k}}\left(\mathbf{X}^{S_k}, \mathbf{X}^T, G_k, G_t\right)= &-\mathbb{E}_{\mathbf{x}^{s_k} \sim \mathbf{X}^{s_k}}\left[\log D I_k\left(G_k\left(\mathbf{x}^{s_k}\right)\right)\right]\\ &-\mathbb{E}_{\mathbf{x}^t \sim \mathbf{X}^t}\left[\log \left(1-D I_k\left(G_t\left(\mathbf{x}^t\right)\right)\right)\right] \end{aligned} \]

直觀地理解，該目標函數使判別器將\(G_k\)產出的表征打高分，而將\(G_t\)產出的表征打低分，已完成對源域和目標域的表征對齊。

接下來，判別器\(DI_k\)保持不動，按照下列目標函數來更新生成器\(G_k\)、\(G_t\)（注意這里\(G_k\)、\(G_t\)是在各自的計算節點上單獨進行更新，這里為了方便寫成一個目標函數）：

\[\begin{aligned} L_{a d v_{G_k}}\left(\mathbf{X}^{S_k}, \mathbf{X}^T, D I_k\right)=&-\mathbb{E}_{\mathbf{x}^{s_k} \sim \mathbf{X}^{s_k}}\left[\log D I_k\left(G_k\left(\mathbf{x}^{s_k}\right)\right)\right]\\ &-\mathbb{E}_{\mathbf{x}^t \sim \mathbf{X}^t}\left[\log D I_k\left(G_t\left(\mathbf{x}^t\right)\right)\right] \end{aligned} \]

直觀地理解，該目標函數使生成器\(G_k\)、\(G_t\)產出的表征都獲得較高的判別器得分，以欺騙判別器。

除了GAN模塊之外，本文還設計了表征解耦模塊，采用對抗性表征解耦來提取領域不變的特征，即將\((G_i, G_t)\)提取到的特征進一步解耦為領域不變（domain-invariant）和領域特異（domain-specific）的特征。正如上面的框架圖所示，解耦器\(D_k\)將提取到的特征分離為了\(f_{di}=D_k(G_k(\mathbf{x}^{\mathbf{s}_k}))\)（領域不變）和\(f_{ds}=D_k(G_k(\mathbf{x}^{\mathbf{s}_k}))\)（領域特異）這兩個分支（branch）。

針對這兩個branch的表征，作者首先設置一個分類器\(C_i\)與一個類識別器\(CI_i\)來分別基于\(f_{di}\)和\(f_{ds}\)特征對標簽進行預測，并采用下列的交叉熵損失函數進行訓練：

\[\begin{aligned} L_{\text {cross-entropy }}=&-\mathbb{E}_{\left(\mathbf{x}^{s_k}, \mathbf{y}^{s_k}\right) \sim \widehat{\mathcal{D}}_{s_k}} \sum_{c=1}^{|C|} \mathbb{1}\left[c=\mathbf{y}^{s_k}\right] \log \left(C_k\left(f_{di}\right)\right)\\ &-\mathbb{E}_{\left(\mathbf{x}^{s_k}, \mathbf{y}^{s_k}\right) \sim \widehat{\mathcal{D}}_{s_k}} \sum_{c=1}^{|C|} \mathbb{1}\left[c=\mathbf{y}^{s_k}\right] \log \left(CI_k\left(f_{d s}\right)\right) \end{aligned} \]

在下一步中，我們凍結類識別器\(CI_k\)，并只訓練特征解耦器\(D_k\)，通過生成領域特異的特征\(f_{ds}\)來欺騙類識別器\(CI_k\)。而這可以通過最小化預測類別分布的負熵損失來達到，目標函數如下所示：

\[\begin{aligned} L_{e n t} &= -\frac{1}{n_k} \sum_{i=1}^{n_k} \log C I_k\left(f_{d s}^{(i)}\right)\\ &= -\frac{1}{n_k} \sum_{i=1}^{n_k} \log C I_k\left(D_k\left(G_k\left(\mathbf{x}^{(i)}\right)\right)\right) \end{aligned} \]

在這里，特征解耦通過保留\(f_{di}\)并消除\(f_{ds}\)來促進知識遷移。

最后，為了增強特征解耦，作者設計了一個互信息項來最小化領域不變特征\(f_{di}\)和領域特異特征\(f_{ds}\)之間的互信息\(I\left(f_{d i} ; f_{d s}\right)\)，這里采用MINE來對互信息進行估計^[20]：

\[\begin{aligned} \widehat{I(\mathcal{P} ; \mathcal{Q}})_n& =\sup _{\theta \in \Theta} \mathbb{E}_{\mathbb{P}_{\mathcal{P} O}^{(n)}}\left[T_\theta\right]-\log \left(\mathbb{E}_{\mathbb{P}_{\mathcal{P}}^{(n)} \otimes \widehat{\mathbb{P}}_O^{(n)}}\left[e^{T_\theta}\right]\right)\\ &= \iint \mathbb{P}_{\mathcal{P} \mathcal{Q}}^n(p, q) T(p, q, \theta)-\log \left(\iint \mathbb{P}_{\mathcal{P}}^n(p) \mathbb{P}_{\mathcal{Q}}^n(q) e^{T(p, q, \theta)}\right) \end{aligned} \]

關于互信息的上下界估計，大家可以參見我的博客《遷移學習：互信息的變分上下界》。為了避免計算積分，這里采用蒙特卡洛積分來計算該估計：

\[I(\mathcal{P}, \mathcal{Q})=\frac{1}{n} \sum_{i=1}^n T(p, q, \theta)-\log \left(\frac{1}{n} \sum_{i=1}^n e^{T\left(p, q^{\prime}, \theta\right)}\right) \]

2.2 CVPR21《FedDG: Federated Domain Generalization on Medical Image Segmentation via Episodic Learning in Continuous Frequency Space》^[13]

本篇論文是聯邦域泛化的第一篇工作。這篇論文屬于基于學習策略（采用元學習）的域泛化方法，并通過傳圖像的幅度譜（amplitude spectrum），而非圖像數據本身來構建本地的元學習任務，從而保證聯邦場景下的數據隱私性。本文方法的框架示意圖如下：

這里\(K\)為領域/客戶端的個數。該方法使圖像的低級特征——幅度譜在不同客戶端間共享，而使高級語義特征——相位譜留在本地。這里再不同客戶端間共享的幅度譜就可以作為多領域/多源數據分布供本地元學習訓練使用。

接下來我們看本地的元學習部分。元學習的基本思想是通過模擬訓練/測試數據集的領域偏移來學得具有泛化性的模型參數。而在本文中，本地客戶端的領域偏移來自不同分布的頻率空間。具體而言，對每輪迭代，我們考慮本地的原輸入圖片\(x_{i}^k\)做為meta-train，它的訓練搭檔\(\mathcal{T}_i^{k}\)則由來自其它客戶端的頻域產生，做為meta-test來表示分布偏移。

設客戶端\(k\)中的圖片\(x^k_i\)由正向傅里葉變換\(\mathcal{F}\)得到的幅度譜為\(\mathcal{A}_i^k \in \mathbb{R}^{H \times W \times C}\)，相位譜為\(\mathcal{P}_i^k \in \mathbb{R}^{H \times W \times C}\)（\(C\)為圖片通道數）。本文欲在客戶端之間交換低級分布也即幅度譜信息，因此需要先構建一個供所有客戶端共享的distribution bank \(\mathcal{A} = [\mathcal{A}^1, \cdots, \mathcal{A}^K]\)，這里\(A^k = {\{\mathcal{A}^k_i\}}^{n^k}_{i=1}\)包含了來自第\(k\)個客戶端所有圖片的幅度譜信息，可視為代表了\(\mathcal{X}^k\)的分布。

之后，作者通過在頻域進行連續插值的手段，將distribution bank中的多源分布信息送到本地客戶端。如上圖所示，對于第\(k\)個客戶端的圖片幅度譜\(\mathcal{A}_i^{k}\)，我們會將其與另外\(K-1\)個客戶端的幅度譜進行插值，其中與第\(l(l\neq k)\)個外部客戶端的圖片幅度譜\(\mathcal{A}_j\)插值的結果表示為：

\[\mathcal{A}_{i}^{k \rightarrow l}=(1-\lambda) \mathcal{A}_i^k *(1-\mathcal{M})+\lambda \mathcal{A}_j^l * \mathcal{M} \]

這里\(\mathcal{M}\)是一個控制幅度譜內低頻成分比例的二值掩碼，\(\lambda\)是插值率。然后以此通過反向傅里葉變換生成變換后的圖片：

\[x_{i}^{k \rightarrow l}=\mathcal{F}^{-1}\left(\mathcal{A}_{i}^{k \rightarrow l}, \mathcal{P}_i^k\right) \]

就這樣，對于第\(k\)個客戶端的輸入圖片\(x^k_i\)，我們就得到了屬于不同分布的\(K-1\)個變換后的圖片數據\(\mathcal{T}^k_i = \{x^{k\rightarrow l}_i\}_{l\neq k}\)，這些圖片和\(x^k_i\)共享了相同的語義標簽。

接下來在元學習的每輪迭代中，我們將原始數據\(x^k_i\)做為meta-train，并將其對應的\(K-1\)個由頻域產生的新數據\(\mathcal{T}^k_i\)做為meta-test來表示分布偏移，從而完成在當前客戶端的inner-loop的參數更新。

具體而言，元學習范式可以被分解為兩步：

第一步 模型參數\(\theta^k\)在meta-train上通過segmentaion Dice loss \(\mathcal{L}_{seg}\)來更新：

\[\hat{\theta}^k=\theta^k-\beta \nabla_{\theta^k} \mathcal{L}_{s e g}\left(x_i^k ; \theta^k\right) \]

這里參數\(\beta\)表示內層更新的學習率。

第二步 在meta-test數據集\(\mathcal{T}^k_i\)上使用元目標函數（meta objective）\(\mathcal{L}_{meta}\)對已更新的參數\(\hat{\theta}^k\)進行進一步元更新。

\[\mathcal{L}_{meta}=\mathcal{L}_{seg}\left(\mathcal{T}_i^k ; \hat{\theta}^k\right)+\gamma \mathcal{L}_{boundary}\left(x_i^k, \mathcal{T}_i^k ; \hat{\theta}^k\right) \]

這里特別重要的是，第二步所要優化的目標函數由在第一部中所更新的參數\(\hat{\theta}^k\)計算，最終的優化結果覆蓋掉原來的參數\(\theta^k\)。

如果我們將一二步合在一起看，則可以視為通過下面目標函數來一起優化關于參數\(\theta^k\)的內層目標函數和元目標函數：

\[\underset{\theta^k}{\arg \min }\space \mathcal{L}_{seg}\left(x_i^k ; \theta^k\right)+\mathcal{L}_{m e t a}\left(x_i^k, \mathcal{T}_i^k ; \hat{\theta}^k\right) \]

最后，一旦本地訓練完成，則來自所有客戶端的本地參數\(\theta^k\)會被服務器聚合并更新全局模型。

2.3 Arxiv21《Federated Learning with Domain Generalization 》^[12]

本篇論文屬于基于學習領域不變表征的域泛化方法，并通過使所有客戶端的表征對齊一個由GAN自適應生成的參考分布，而非使客戶端之間的表征互相對齊，來保證聯邦場景下的數據隱私性。本文方法整體的架構如下圖所示：

注意，這里所有客戶端共享一個參考分布，而這通過共享同一個分布生成器（distribution generator）來實現。在訓練過程一邊使每個域（客戶端）的數據分布會和參考分布對齊，一邊最小化分布生成器的損失函數，使其產生的參考分布接近所有源數據分布的“中心”（這也就是”自適應“的體現）。一旦判別器很難區分從特征提取器中提取的特征和從分布生成器中所生成的特征，此時所提取的特征就被認為是跨多個源域不變的。這里的特征分布生成器的輸入為噪聲樣本和標簽的one-hot向量，它會按照一定的分布（即參考分布）生成特征。最后，作者還采用了隨機投影層來使得判別器更難區分實際提取的特征和生成器生成的特征，使得對抗網絡更穩定。在訓練完成之后，參考分布和所有源域的數據分布會對齊，此時學得的特征表征被認為是通用（universal）的，能夠泛化到未知的領域。

接下來我們來看GAN部分具體的細節。設\(F(\cdot)\)為特征提取器，\(G(\cdot)\)為分布生成器，\(D(\cdot)\)為判別器。設由特征提取器所提取的特征\(\mathbf{h} = F(\mathbf{x})\)（數據\(\mathbf{x}\)的生成分布為\(p(\mathbf{h})\)），而由分布生成器所產生的特征為\(\mathbf{h}'= G(\mathbf{z})\)（噪聲\(\mathbf{z}\)的生成分布為\(p(\mathbf{h}')\)。我們設特征提取器所提取的特征為負例，生成器所生成的特征為正例。

于是，我們可以將判別器的優化目標定義為使將特征提取器所生成的特征\(\mathbf{h}\)判為正類的概率\(D(\mathbf{h}|\mathbf{y})\)更小，而使將生成器所生成的特征\(\mathbf{h}'\)判為正類的概率\(D(\mathbf{h}'|\mathbf{y})\)更大。

\[\begin{aligned} \mathcal{L}_{a d v \_d}= & -\left(\mathbb{E}_{\mathbf{x} \sim p(\mathbf{h})}\left[\left(1-D(\mathbf{h} \mid \mathbf{y})\right)^2\right]+\mathbb{E}_{\mathbf{z} \sim p\left(\mathbf{h}^{\prime}\right)}\left[D\left(\mathbf{h}^{\prime} \mid \mathbf{y}\right)^2\right]\right) \end{aligned} \]

生成器盡量使判別器\(D(\cdot)\)將其生成特征\(\mathbf{h}'\)判別為正類的概率\(D\left(\mathbf{h}^{\prime} \mid \mathbf{y}\right)\)更大，以求以假亂真：

\[\mathcal{L}_{a d v_{-} g}=\mathbb{E}_{\mathbf{z} \sim p\left(\mathbf{h}^{\prime}\right)}\left[\left(1-D\left(\mathbf{h}^{\prime} \mid \mathbf{y}\right)\right)^2\right] \]

特征提取器也需要盡量使得其所生成的特征\(\mathbf{h}\)能夠以假亂真：

\[\mathcal{L}_{a d v\_f}=\mathbb{E}_{\mathbf{x} \sim p(\mathbf{h})}\left[(1-D(\mathbf{h} \mid \mathbf{y}))^2\right] \]

再加上圖像分類本身的交叉熵損失\(\mathcal{L}_{err}\)，則總的損失定義為：

\[\mathcal{L}_{F e d A D G}=\mathcal{L}_{a d v\_d}+\mathcal{L}_{a d v\_g}+\lambda_0 \mathcal{L}_{a d v\_f}+\lambda_1 \mathcal{L}_{e r r} \]

論文的最后，作者還對一個問題進行了探討：關于這里的參考分布，我們為什么不用一個預先選好的確定的分布，要用一個自適應生成的分布呢？那是因為自適應生成的分布有一個重要的好處，那就是少對齊期間的失真（distortion）。作者對多個域/客戶端的分布和參考分布進行了可視化，如下圖所示：

（a）中為參考分布選擇為固定的分布后，與各域特征對比的示意圖，圖（b）為參考分布選擇為自適應生成的分布后，和各域特征對比的示意圖。在這兩幅圖中，紅色五角星表示參考分布的特征，除了五角星之外的每種形狀代表一個域，每種顏色代表一個類別的樣本。可以看到自適應生成的分布和多個源域數據分布的距離，相比固定參考分布和多個源域數據分布的距離更小，因此自適應生成的分布能夠減少對齊期間提取特征表征的失真。而更好的失真也就意味著源域數據的關鍵信息被最大程度的保留，這讓本文的方法所得到的表征擁有更好的泛化表現。

2.4 NIPS22 《FedSR: A Simple and Effective Domain Generalization Method for Federated Learning》^[11]

本篇論文屬于基于學習領域不變表征的域泛化方法，并通過使所有客戶端的表征對齊一個高斯參考分布，而非使客戶端之間的表征互相對齊，來保證聯邦場景下的數據隱私性。本文的動機源于經典機器學習算法的思想，旨在學習一個“簡單”（simple）的表征從而獲得更好的泛化性能。

首先，作者以生成模型的視角，將表征\(z\)建模為從\(p(z|x)\)中的采樣，然后在此基礎上定義領域\(k\)的分類目標函數以學得表征：

\[\begin{aligned} \overline{f_k}(w) & =\mathbb{E}_{p_k(x, y)}\left[\mathbb{E}_{p(z \mid x)}[-\log \hat{p}(y \mid z)]\right] \\ & \approx \frac{1}{n_k} \sum_{i=1}^{n_k}-\log \hat{p}\left(y_k^{(i)} \mid z_k^{(i)}\right) \end{aligned} \]

這里領域\(k\)的樣本表征\(z_j^{(i)}\)通過編碼器+重參數化從\(p(z|x_k^{(i)})\)中采樣產生。

接下來我們來看怎么使得表征更“簡單”。本文采用了兩個正則項，一個是關于表征的\(L2\)正則項來限制表征中所包含的信息；一個是在給定\(y\)的條件下，\(x\)與\(z\)的條件互信息\(I(x, z\mid y)\)（的上界）來使表征只學習重要的信息，而忽視諸如圖片背景之類的偽相關性（spurious correlations）。

關于表征\(z\)的\(L2\)正則項定義如下：

\[\begin{aligned} \mathcal{L}_k^{L 2 R} & =\mathbb{E}_{p_k(x)}\left[\mathbb{E}_{p(z \mid x)}\left[\|z\|_2^2\right]\right] \\ & \approx \frac{1}{n_k} \sum_{i=1}^{n_k}\left\|z_k^{(i)}\right\|_2^2a \end{aligned} \]

于是，上式的微妙之處在于可以和領域不變表征聯系起來，事實上我們有\(\mathcal{L}_k^{L 2 R}=\mathbb{E}_{p_k(x)}\left[\mathbb{E}_{p(z \mid x)}\left[\|z\|_2^2\right]\right]=\mathbb{E}_{p_k(x, z)}\left[\|z\|_2^2\right]=\mathbb{E}_{p_k(z)}\left[\|z\|_2^2\right]=2 \sigma^2 \mathbb{E}_{p_k(z)}[-\log q(z)]=2 \sigma^2 H\left(p_k(z), q(z)\right)\)，這里\(H\left(p_k(z), q(z)\right)=H\left(p_k(z)\right)+ D_{\text{KL}} \left[p_k(z) \Vert q(z)\right]\)，參考分布\(q(z)=\mathcal{N}\left(0, \sigma^2 I\right)\)。如果\(H(p_i(z))\)在訓練中并未發生大的改變，那么最小化\(l_k^{L2R}\)也就是在最小化\(D_{\text{KL}}[p_k(z) \Vert q(z)]\)，也即在隱式地對齊一個參考的邊緣分布\(q(z)\)，而這就使得標準的邊緣分布\(p_k(z)\)是跨域不變的。注意該對齊是不需要顯式地比較不同客戶端分布的。

接下來我們來看條件互信息項。在信息瓶頸理論中，常對\(x\)和表征\(z\)之間的互信息項\(I(x, z)\)進行最小化以對\(z\)中所包含的信息進行加以正則，但是這樣的約束在實踐中如果系數沒調整好，就很可能過于嚴格了，畢竟它迫使表征不包含數據的信息。因此，在這篇論文中，作者選擇最小化給定\(y\)時\(x\)和\(z\)之間的條件互信息。領域\(k\)的條件互信息被計算為：

\[I_k(x, z \mid y)=\mathbb{E}_{p_k(x, y, z)}\left[\log \frac{p_k(x, z \mid y)}{p_k(x \mid y) p_k(z \mid y)}\right] \]

直觀地看，\(\bar{f}_k\)和\(I_k(x, z\mid y)\)共同作用，迫使表征\(z\)僅僅擁有預測標簽\(y\)使所包含的信息，而沒有關于\(x\)的額外（即和標簽無關的）信息。

然而，這個互信息項是難解（intractable）的，這是由于計算\(p_k(z|y)\)很難計算（由于需要對\(x\)進行積分將其邊緣化消掉）。因此，作者導出了一個上界來對齊進行最小化：

\[\mathcal{L}_k^{C M I} = \mathbb{E}_{p_k(x, y)}[D_{\text{KL}}[p(z \mid x) \Vert r(z \mid y)]] \geq I_k(x, z \mid y) \]

這里\(r(z|y)\)可以是一個輸入\(y\)輸出分布\(r(z|y)\)的神經網絡，作者將其設置為高斯\(\mathcal{N}\left(z ; \mu_y, \sigma_y^2\right)\)，這里\(u_y\)，\(\sigma^2_y\)（\(y=1, 2, \cdots, C\)）是需要優化的神經網絡參數，\(C\)是類別數量。

事實上，該正則項和域泛化中的條件分布對齊亦有著理論上的聯系，這是因為\( \mathcal{L}_k^{C M I}=\mathbb{E}_{p_k(x, y)}[D_{\text{KL}}[p(z \mid x) \Vert r(z \mid y)]] \geq \mathbb{E}_{p_k(y)}\left[D_{\text{KL}}\left[p_k(z \mid y) \Vert r(z \mid y)\right]\right] \)。因此，最小化\(\mathcal{L}_k^{CMI}\)我們必然就能夠最小化\(D_{\text{KL}}\left[p_k(z \mid y) \Vert r(z \mid y)\right]\)（因為\(\mathcal{L}^{CMI}_k\)是其上界），使得\(p_k(z|y)\)和\(r(z|y)\)互相接近，即：\(p_k(z|y)\approx r(z|y)\)。因此，模型會嘗試迫使\(p_k(z \mid y) \approx p_l(z \mid y)(\approx r(z \mid y))\)（對任意客戶端/領域\(k, l\)）。這也就是說，我們是在做給定標簽\(y\)時表征\(z\)的條件分布的隱式對齊，這在傳統的領域泛化中是一種很常見與有效的技術，區別就是這里不需要顯式地比較不同客戶端的分布。

最后，每個客戶端的總體目標函數可以表示為：

\[\mathcal{L}_k = \overline{f_k}+\alpha^{L 2 R} \mathcal{L}_k^{L 2 R}+\alpha^{C M I} \mathcal{L}_k^{C M I} \]

總結一下，這里\(L2\)范數正則項\(\mathcal{L}_k^{L2R}\)和給定標簽時數據和表征的條件互信息\(\mathcal{L}_k^{CMI}\)（的上界）用于限制表征中所包含的信息。此外，\(\mathcal{L}_k^{L2R}\)將邊緣分布\(p_k(z)\)對齊到一個聚集在0周圍的高斯分布，而\(\mathcal{L}_i^{CMI}\)則將條件分布\(p_k(z|y)\)對齊到一個參考分布（在實驗環節作者亦將其選擇為高斯）。

2.5 WACV23 《Federated Domain Generalization for Image Recognition via Cross-客戶端 Style Transfer》^[10]

本篇論文屬于基于數據操作的域泛化方法，并通過構造一個style bank供所有客戶端共享（類似CVPR21那篇），以使客戶端在不共享數據的條件下基于風格（style）來進行數據增強，從而保證聯邦場景下的數據隱私性。本文方法整體的架構如下圖所示：

如圖所示，每個客戶端的數據集都有自己的風格。且對于每個客戶端而言，都會接受其余客戶端的風格來進行數據增強。事實上，這樣就可以使得分布式的客戶端在不泄露數據的情況下擁有相似的數據分布。在本方法中，所有客戶端的本地模型都擁有一致的學習目標——那就是擬合來自于所有源域的styles，而這種一致性就避免了本地模型之間的模型偏差，從而避免了影響全局模型的效果。此外，本方法可和其它DG的方法結合使用，從而使得其它中心化的DG方法均能得到精度的提升。

關于本文采用的風格遷移模型，有下列要求：1、所有客戶端共享的style不能夠被用來對數據集進行重構，從而保證數據隱私性；2、用于風格遷移的方法需要是一個實時的任意風格遷移模型，以允許高效和直接的風格遷移。本文最終選擇了AdaIN做為本地的風格遷移模型。整個跨客戶端/領域風格遷移流程如下圖所示：

可以看到，整個跨客戶端/領域風格遷移流程分為了三個階段：

1. Local style Computation

每個客戶端需要計算它們的風格并上傳到全局服務器。其中可選擇單張圖片風格（single image style）和整體領域風格（overall domain style ）這兩種風格來進行計算。

單張圖片風格 單張圖片風格是圖片VGG特征的像素級逐通道（channel-wise）均值和方差。比如我們設在第\(k\)個客戶端上，隨機選取的圖片索引為\(i\)，其對應的VGG特征\(F_k^{(i)}=\Phi(I^{(i)}_k)\)(這里的\(I^{(i)}_k\)表示圖像內容，\(\Phi\)為VGG的編碼器)，單張圖片風格可以被計算為：

\[S_{k}^{(i)}=\left(\mu\left(F_k^{(i)}\right), \sigma\left(F_k^{(i)}\right)\right) \]

如果單張圖片風格被用于風格遷移，那么就需要將該客戶端不同圖片對應的多種風格都上傳到服務器，從而避免單張圖片的偏差并增加多樣性。而這就需要建立本地圖片的style bank \(\mathcal{S}_k^{single}\)并將其上傳到服務器。這里作者隨機選擇\(J\)張圖像的style加入了本地style bank：

\[\mathcal{S}_k^{single}=\left\{S_{k}^{(i_1)}, \ldots, S_{k}^{(i_J)}\right\} \]

整體領域風格 整體領域風格是領域層次的逐通道均值和方差，其中考慮了一個客戶端中的所有圖片。比如我們假設客戶端\(k\)擁有\(N_k\)個訓練圖片和對應的VGG特征\(\{F_k^{(1)}, F_k^{(2)}, \ldots, F_{k}^{(N_k)}\}\)。則該客戶端的整體領域風格\(S_k^{overall}\)為：

\[\begin{aligned} & S_k^{overall} =\left(\mu\left(F_{k}^{all}\right), \sigma\left(F_{k}^{all}\right)\right) \\ & F_k^{all}=\operatorname{Stack}\left(F_k^{(1)}, F_k^{(2)}, \ldots, F_k^{(N_k)}\right) \end{aligned} \]

相比單張圖片風格，整體領域風格的計算代價非常高。不過，由于每個客戶端/領域只有一個領域風格\(S_k^{overall}\)，選擇上傳整體領域風格到服務器的通信效率會更高。

2. Style Bank on Server

當服務器接收到來自各個客戶端的風格時，它會將所有風格匯總為一個style bank \(\mathcal{B}\) 并將其廣播回所有客戶端。在兩種不同的風格共享模式下，style bank亦會有所不同。

單圖像風格的style bank \(\mathcal{B}\)為：

\[\mathcal{B}_{single}=\left\{\mathcal{S}_{k}^{single} \mid k=1,2, \ldots K\right\} \]

整體領域風格的style bank \(\mathcal{B}\)為：

\[\mathcal{B}_{overall}=\left\{S_{k}^{overall} \mid k=1,2, \ldots, K\right\} \]

\(\mathcal{B}_{single}\)比\(\mathcal{B}_{overall}\)會消耗更多存儲空間，因此后者會更加通信友好。

3. Local Style Transfer

當客戶端\(k\)收到style bank \(\mathcal{B}\)后，本地數據會通過遷移\(\mathcal{B}\)中的風格來進行增強，而這就將其它領域的風格引入了當前客戶端。作者設置了超參數\(L \in\{1,2, \ldots, K\}\)做為增強級別，意為從style bank \(\mathcal{B}\)中隨機選擇\(L\)個域所對應的風格來對每個圖片進行增強，因此\(L\)表明了增強數據集的多樣性。設第\(k\)個客戶端數據集大小為\(N_k\)，則在進行跨客戶端的領域遷移之后，增強后數據集的大小會變為\(N_k \times L\)。其中對客戶端\(k\)中的每張圖片\(I^{(i)}_k\)，其對應的每個被選中的域都會擁有一個style vector\(S\)被作為圖像生成器\(G\)的輸入。這里關于style vector的獲取有個細節需要注意：假設我們選了域\(k\)，如果遷移的是整體領域風格，則\(S^{overall}_k\)直接即可做為style vector；如果遷移的是單圖片風格，則還會進一步從選中\(\mathcal{S}^{single}_k\)中隨機選擇一個風格\(S_k^{(i)}\)做為域\(k\)的style vector。對以上兩種風格模式而言，如果一個域被選中，則其對應的風格化圖片就會被直接加入增強后的數據集中。

2.6 CVPR23 《Rethinking Federated Learning with Domain Shift: A Prototype View》^[15]

本文屬于考慮了領域漂移的異構聯邦學習，而不屬于域泛化，不過兩個領域有很多相似之處，故在這里也記錄一下。本篇論文采用了基于表征學習的方法。具體而言，本文采用原型學習的視角，設計了一種聚類原型學習方法來解決領域偏移問題。本文方法整體的架構如下圖所示：

如上圖所示，首先根據每個客戶端屬于類別\(c\)（\(c\in \left[ |C| \right]\)，\(|C|\)為類別個數）的樣本表征集合，來計算出在該客戶端上各類別的原型：

\[p_k^c =\frac{1}{\left|S_k^c\right|} \sum_{\left(x_i, y_i\right) \in S_k^c} f_k\left(x_i\right)， \]

這里\(S^c_k\)為客戶端\(k\)上屬于類別\(c\)的樣本集合。

之后，將每種類別對應的原型集合\(\{p^c_k\}^K_{k=1}\)分別聚為\(K^{\prime}\)類，以得到\(K^{\prime}\)個代表性的聚類原型：

\[\begin{aligned} \mathcal{P}^c & =\left\{p_k^c\right\}_{k=1}^K \stackrel{\text { Cluster }}{\longrightarrow}\left\{p_k^c\right\}_{k=1}^{K^{\prime}} \in \mathbb{R}^{K^{\prime} \times d} \\ \mathcal{P} & =\left\{\mathcal{P}^1, \ldots, \mathcal{P}^c, \ldots, \mathcal{P}^{|C|}\right\} \end{aligned} \]

在聚完類之后，再對每個類別所對應的\(K^{\prime}\)個聚類原型取平均，得到最終的無偏原型：

\[\begin{aligned} \mathcal{U}^c & =\frac{1}{K^{\prime}} \sum_{k=1}^{K\prime} p^c_k \in \mathbb{R}^d \\ \mathcal{U} & =\left[\mathcal{U}^1, \ldots, \mathcal{U}^c, \ldots, \mathcal{U}^{C}\right] \end{aligned} \]

作者還畫了一張圖來解釋為什么對類別原型進行聚類可以有效解決域偏移的問題：

如圖所示，全局原型無法描述不同領域的信息，并且被潛在的主導領域所支配。而聚類原型和無偏原型則攜帶著多個域的知識和平穩的優化信號。

在得到了聚類原型和無偏原型之后，作者設計了對比正則項以拉近同類的聚類原型之間的距離，而增大不同類的聚類原型之間的距離：

\[\mathcal{L}_{C P C L}=-\log \frac{\sum_{p \in \mathcal{P}^c} \exp \left(s\left(z_i, p\right)\right)}{\sum_{p \in \mathcal{P}^c} \exp \left(s\left(z_i, c\right)\right)+\sum_{p \in \mathcal{N}^c} \exp \left(s\left(z_i, p\right)\right)} \]

這里表征\(z_i = f(x_i)\)（\(x_i\)為圖片實例），其與對應類別的聚類原型\(p\)之間的相似度定義為：\(s\left(z_i, c\right)=\frac{z_i \cdot c}{\left\|z_i\right\| \times\|c\| / \tau}\)。\(\mathcal{N}^c = \mathcal{P} - \mathcal{P}^c\)為類別不為\(c\)的聚類原型集合。

此外，作者還設計了一致化正則項來拉近表征\(z_i\)和其對應類別的無偏原型\(\mathcal{U}^c\)之間的距離：

\[\mathcal{L}_{U P C R}=\sum^d_{v=1}\left(z_{i, v}-\mathcal{U}_v^k\right)^2 \]

這里\(v\)用于索引表征的各個維度。

最后，將\(\mathcal{L}_{C P C L}\)、\(\mathcal{L}_{U P C R}\)和圖片分類任務本身的交叉熵\(\mathcal{L}_{\text{CE}}\)加起來，就得到了總的損失函數：

\[\mathcal{L}=\mathcal{L}_{C P C L}+\mathcal{L}_{U P C R}+\mathcal{L}_{C E} \]

2.7 ArXiv23 《PerAda: Parameter-Efficient and Generalizable Federated Learning Personalization with Guarantees》^[16]

本篇論文屬于基于學習策略的域泛化方法。具體而言，本文為每個客戶端設置了個性化的模型，并在服務器端增設了知識蒸餾過程以從各客戶端聚合泛化信息。本文方法整體的架構如下圖所示：

本文整體依據Ditto^[17]的架構，在客戶端本地設置個性化模型\(\{v_k\}^K_{k=1}\)（本文稱之為個性化適配器，personalized adapter），并將問題建模為如下的優化問題：

\[\begin{aligned} & \min _{\left\{v_k\right\}} \frac{1}{K} \sum_{k=1}^K P_k\left(v_k, w\right), \quad \text { (Personal Obj) } \\ & \text { with } \quad P_k\left(v_k, w\right):=\mathcal{L}_k\left(\left(u, v_k\right)\right)+\frac{\lambda}{2}\left\|v_k-w\right\|^2 \end{aligned} \]

這里\(u\in \mathbb{R}^{d_u}\)表示固定的預訓練參數，且\(v_k, w\in\mathbb{R}^{d_a}\)分別表示個性化適配器和全局適配器（global adapter）。

因此，本地客戶端的優化也分兩步走，先在本輪接收到的全局適配器\(w^t\)的約束條件下，更新本地的個性化適配器：

\[v_k^{t, s+1} \leftarrow v_k^{t, s}-\eta_p \nabla\left(\mathcal{L}_k\left(\left(u, v_k^{t, s}\right), \xi_k^{t, s}\right)+\lambda\left(v_k^{t, s}-w^t\right)\right) \]

這里\(\xi_k^{t, s}\)為從本地訓練集\(\mathcal{D}_k\)中采樣的batch數據。

然后再更新本地適配器（local adapter）\(\theta\)：

\[\theta_k^{t, e+1} \leftarrow \theta_k^{t, e}-\eta_l \nabla \mathcal{L}_k\left(\left(u, \theta_k^{t, e}\right), \xi_k^{t, e}\right) \]

同樣地，這里\(\xi_k^{t, e}\)也表示從本地訓練集\(\mathcal{D}_k\)中采樣的batch數據。

本文的創新之處在于服務器端采用參數平均\(w^{t} \leftarrow \sum_{k \in \mathcal{S}_t} \frac{1}{\left|\mathcal{S}_t\right|} \theta_k^{t+1}\)（\(\mathcal{S}_t\)為所采樣的客戶端子集）進行聚合之后，沒有直接將聚合所得的全局適配器\(w^t\)廣播給客戶端，而是繼續采用知識蒸餾來對服務器端的全局適配器\(w^t\)進行更新：

\[w^{t, r+1} \leftarrow w^{t, r}-\eta_g \beta \nabla_w \mathcal{R}_{\mathrm{KD}}\left(u,\left\{\theta_k^{t+1}\right\}_{k \in \mathcal{S}^t}, w^{t, r}, \xi^{t, r}\right) \]

這里\(\xi_k^{t, r}\)也表示從本地訓練集\(\mathcal{D}_k\)中采樣的batch數據，知識蒸餾損失\(\mathcal{R}_{\text{KD}}\)定義如下：

\[\mathcal{R}_{\mathrm{KD}}\left(u,\left\{\theta_k\right\}_{k=1}^K, w\right):=\sum_{j=1}^{n_{\mathrm{aux}}} \ell_{\mathrm{KD}}\left(\sum_{k=1}^K \frac{f\left(\left(u, \theta_k\right), x_j\right)}{K}, f\left((u, w), x_j\right)\right) \]

該損失也即在輔助（無標簽）數據集\({\mathcal{D}}_{\text{aux}}={\{x_j\}}^{n_{\text{aux}}}_{j=1}\)上，本地適配器的平均logits和全局適配器的logits的平均蒸餾損失。這里\(\ell_{\mathrm{KD}}(a, b)=\mathrm{KL}(\sigma(a / \tau), \sigma(b / \tau))\)為KL散度損失（\(\sigma\)為softmax函數，\(\tau\)為溫度）。

2.8 CVPR23 《Federated Domain Generalization with Generalization Adjustment》^[18]

本篇論文屬于基于學習策略的域泛化方法。具體而言，本文為聯邦域泛化問題設計了一種新的目標函數，該目標函數考慮到了各客戶端上泛化差距（generalization gap）的方差，從而保證了在所有領域上最優全局模型的平坦性（flatness）。在思想脈絡上，本文是由解決OOD問題的經典方法《Out-of-distribution generalization via risk extrapolation》^[19]得到的啟發。本文方法整體的架構如下圖所示：

如上圖所示，相比普通FedAvg方法直接對各領域模型按照樣本比例\(p_1, p_2, \cdots, p_3\)（訓練中固定）進行加權聚合，本文的GA方法按照可學習的權重\(\alpha_i\)來聚合各領域模型。此外，本文方法的目標函數中還帶有一個公平性（fairness）正則化項\(\text{Var}\left(\cdot\right)\)，可通過動態校準聚合權重來進行優化。

本文方法的全局目標函數如下：

\[\begin{aligned} & \min _{\theta_1, \ldots, \theta_K, \mathbf{a}} \widehat{\mathcal{E}}_{\widehat{D}}(\theta)=\sum_{k=1}^K a_k \widehat{\mathcal{E}}_{\widehat{D}_k}(\theta)+\beta \operatorname{Var}\left(\left\{G_{\widehat{D}_k}(\theta)\right\}_{k=1}^K\right) \\ & \text { s.t. } \sum_{k=1}^K a_k=1, \theta=\sum_{k=1}^K a_k \cdot \theta_k, \text { and } \forall k, a_k \geq 0， \end{aligned} \]

這里\(\mathbf{a}\)為可學習的客戶端/域的聚合權重，而\(\beta \in \left[ 0, \infty \right)\)用于控制在減少全局經驗風險（即\(\sum_{k=1}^K a_k \widehat{\mathcal{E}}_{\widehat{D}_k}(\theta)\)）與加強泛化差距公平性（即\(\text{Var}\left(\cdot\right)\)）之間的平衡。當\(\beta=0\)時退化為普通的FedAvg算法，當\(\beta\rightarrow \infty\)時將僅僅去使得泛化差距相等。

\(G_{\widehat{D}_k}\)則計算的是全局模型\(\theta\)和本地模型\(\theta_k\)之間的泛化差距（定義為全局模型在本地訓練集上的經驗風險-本地模型在本地訓練集上的經驗風險），定義如下：

\[G_{\widehat{D}_k}(\theta)=\widehat{\mathcal{E}}_{\widehat{D}_k}\left(\theta \right)-\widehat{\mathcal{E}}_{\widehat{D}_k}\left(\theta_k\right) \]

那么以上僅僅是給出了目標函數，具體是如何計算求解的呢？具體到每輪迭代上，本地客戶端從服務器端接受全局模型\(\theta^t\)后，先計算全局模型\(\theta^t\)與本地模型\(\theta^{t}_k\)的泛化差距\(G_{\widehat{D}_k}\left(\theta^t\right)\)；然后完成本地參數更新得到\(\theta^{t+1}_k\)，并計算本地模型的經驗損失\(\widehat{\mathcal{E}}_{\widehat{D}_k}\left(\theta_k^{t+1}\right)\)（留給下一輪迭代計算\(G_{\widehat{D}_k}\left(\theta^t\right)\)用）。最后，客戶端將計算好的泛化差距\(G_{\widehat{D}_k}\left(\theta^t\right)\)與更新后的本地模型\(\theta^{t+1}_k\)發往服務器端。

而服務端則先通過\(\left\{G_{\widehat{D}_k}\left(\theta^{t}\right)\right\}_{k=1}^K\)與上一輪的聚合權重\(\mathbf{a}^{t}\)來計算更新后的聚合權重\(\mathbf{a}^{t+1}\)（動量更新），并對其進行歸一化：

\[\begin{aligned} a^{t+1}_k &=\mathbf{G A}\left(a^{t}_k,\left\{G_{\widehat{D}_k}\left(\theta^t\right)\right\}_{k=1}^K, d^t\right)\\ &=\frac{\left(G_{\widehat{D}_k}\left(\theta^t\right)-\mu\right) * d^t}{\max _l\left(G_{\widehat{D}_l}\left(\theta^t\right)-\mu\right)}+a_k^{t}，\\ a_k^{t+1} &= \frac{a_k^{t+1}}{\sum_{l=1}^K a_l^{t+1}}， \end{aligned} \]

這里\(\mu=\frac{1}{K} \sum_{k=1}^K G_{\widehat{D}_k}\left(\theta^t\right)\)，且\(d^t=(1-t / T) * d, d\in (0, 1)\)是一個控制每次更新幅值的超參數，可以被視為目標函數中\(\beta\)的替代。

然后服務器端再通過\(\mathbf{a}^{t+1}\)來聚合\(\{\theta_k^{t+1}\}^K_k\)以得到最新的全局模型：

\[\theta^{t+1}=\sum_{k=1}^K a_k^{t+1} \cdot \theta_k^{t+1} \]

參考

[1] Wang J, Lan C, Liu C, et al. Generalizing to unseen domains: A survey on domain generalization[J]. IEEE Transactions on Knowledge and Data Engineering, 2022.
[2] 王晉東，陳益強. 遷移學習導論（第2版）[M]. 電子工業出版社, 2022.
[3] Volpi R, Namkoong H, Sener O, et al. Generalizing to unseen domains via adversarial data augmentation[C]. Advances in neural information processing systems, 2018, 31.
[4] Zhou K, Yang Y, Qiao Y, et al. Domain generalization with mixstyle[C]. ICLR, 2021.
[5] Li H, Pan S J, Wang S, et al. Domain generalization with adversarial feature learning[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2018: 5400-5409.
[6] Li Y, Gong M, Tian X, et al. Domain generalization via conditional invariant representations[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).
[7] Ilse M, Tomczak J M, Louizos C, et al. Diva: Domain invariant variational autoencoders[C]//Medical Imaging with Deep Learning. PMLR, 2020: 322-348.
[8] Qin X, Wang J, Chen Y, et al. Domain Generalization for Activity Recognition via Adaptive Feature Fusion[J]. ACM Transactions on Intelligent Systems and Technology, 2022, 14(1): 1-21.
[9] Li D, Yang Y, Song Y Z, et al. Learning to generalize: Meta-learning for domain generalization[C]//Proceedings of the AAAI conference on artificial intelligence. 2018, 32(1).
[10] Chen J, Jiang M, Dou Q, et al. Federated Domain Generalization for Image Recognition via Cross-Client Style Transfer[C]//Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2023: 361-370.
[11] Nguyen A T, Torr P, Lim S N. Fedsr: A simple and effective domain generalization method for federated learning[J]. Advances in Neural Information Processing Systems, 2022, 35: 38831-38843.
[12] Zhang L, Lei X, Shi Y, et al. Federated learning with domain generalization[J]. arXiv preprint arXiv:2111.10487, 2021.
[13] Liu Q, Chen C, Qin J, et al. Feddg: Federated domain generalization on medical image segmentation via episodic learning in continuous frequency space[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 1013-1023.
[14] Peng X, Huang Z, Zhu Y, et al. Federated adversarial domain adaptation[J]. arXiv preprint arXiv:1911.02054, 2019.
[15] Huang W, Ye M, Shi Z, et al. Rethinking federated learning with domain shift: A prototype view[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2023: 16312-16322.
[16] Xie C, Huang D A, Chu W, et al. PerAda: Parameter-Efficient and Generalizable Federated Learning Personalization with Guarantees[J]. arXiv preprint arXiv:2302.06637, 2023.
[17] Li T, Hu S, Beirami A, et al. Ditto: Fair and robust federated learning through personalization[C]//International Conference on Machine Learning. PMLR, 2021: 6357-6368.
[18] Zhang R, Xu Q, Yao J, et al. Federated domain generalization with generalization adjustment[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 3954-3963.
[19] Krueger D, Caballero E, Jacobsen J H, et al. Out-of-distribution generalization via risk extrapolation (rex)[C]//International Conference on Machine Learning. PMLR, 2021: 5815-5826.
[20] Belghazi M I, Baratin A, Rajeshwar S, et al. Mutual information neural estimation[C]//International conference on machine learning. PMLR, 2018: 531-540.
[21] Li Y, Wang X, Zeng R, et al. Federated Domain Generalization: A Survey[J]. arXiv preprint arXiv:2306.01334, 2023.
[22] Albuquerque I, Monteiro J, Falk T H, et al. Adversarial target-invariant representation learning for domain generalization[J]. arXiv preprint arXiv:1911.00804, 2019, 8.
[23] Lu W, Wang J, Yu H, et al. FIXED: Frustratingly Easy Domain Generalization with Mixup[J]. arXiv preprint arXiv:2211.05228, 2022.
[24] Ye H, Xie C, Cai T, et al. Towards a theoretical framework of out-of-distribution generalization[J]. Advances in Neural Information Processing Systems, 2021, 34: 23519-23531.
[25] Deshmukh A A, Lei Y, Sharma S, et al. A generalization error bound for multi-class domain generalization[J]. arXiv preprint arXiv:1905.10392, 2019.
[26] Sicilia A, Zhao X, Hwang S J. Domain adversarial neural networks for domain generalization: When it works and how to improve[J]. Machine Learning, 2023: 1-37.

posted @ 2023-05-13 22:04 orion-orion 閱讀(2027) 評論(0) 收藏舉報

刷新頁面返回頂部

Orion's Blog

學習理論、在線優化、數據挖掘

聯邦學習：聯邦場景下的域泛化

1 導引

1.1 域泛化

1.2 聯邦域泛化

2 論文閱讀

2.1 ICLR20 《Federated Adversarial Domain Adaptation》[14]

2.2 CVPR21《FedDG: Federated Domain Generalization on Medical Image Segmentation via Episodic Learning in Continuous Frequency Space》^[13]

2.3 Arxiv21《Federated Learning with Domain Generalization 》^[12]

2.4 NIPS22 《FedSR: A Simple and Effective Domain Generalization Method for Federated Learning》^[11]

2.5 WACV23 《Federated Domain Generalization for Image Recognition via Cross-客戶端 Style Transfer》^[10]

2.6 CVPR23 《Rethinking Federated Learning with Domain Shift: A Prototype View》^[15]

2.7 ArXiv23 《PerAda: Parameter-Efficient and Generalizable Federated Learning Personalization with Guarantees》^[16]

2.8 CVPR23 《Federated Domain Generalization with Generalization Adjustment》^[18]

參考

公告

Orion's Blog

學習理論、在線優化、數據挖掘

聯邦學習：聯邦場景下的域泛化

1 導引

1.1 域泛化

1.2 聯邦域泛化

2 論文閱讀

2.1 ICLR20 《Federated Adversarial Domain Adaptation》[14]

2.2 CVPR21《FedDG: Federated Domain Generalization on Medical Image Segmentation via Episodic Learning in Continuous Frequency Space》[13]

2.3 Arxiv21《Federated Learning with Domain Generalization 》[12]

2.4 NIPS22 《FedSR: A Simple and Effective Domain Generalization Method for Federated Learning》[11]

2.5 WACV23 《Federated Domain Generalization for Image Recognition via Cross-客戶端 Style Transfer》[10]

2.6 CVPR23 《Rethinking Federated Learning with Domain Shift: A Prototype View》[15]

2.7 ArXiv23 《PerAda: Parameter-Efficient and Generalizable Federated Learning Personalization with Guarantees》[16]

2.8 CVPR23 《Federated Domain Generalization with Generalization Adjustment》[18]

參考

公告

2.2 CVPR21《FedDG: Federated Domain Generalization on Medical Image Segmentation via Episodic Learning in Continuous Frequency Space》^[13]

2.3 Arxiv21《Federated Learning with Domain Generalization 》^[12]

2.4 NIPS22 《FedSR: A Simple and Effective Domain Generalization Method for Federated Learning》^[11]

2.5 WACV23 《Federated Domain Generalization for Image Recognition via Cross-客戶端 Style Transfer》^[10]

2.6 CVPR23 《Rethinking Federated Learning with Domain Shift: A Prototype View》^[15]

2.7 ArXiv23 《PerAda: Parameter-Efficient and Generalizable Federated Learning Personalization with Guarantees》^[16]

2.8 CVPR23 《Federated Domain Generalization with Generalization Adjustment》^[18]