摘要:
最近這三個方面的論文都讀過,這里寫一篇博客歸納一下,以方便搞這幾個領域的其他童鞋入門。傳統的分布式機器學習已經被研究十幾年了,目前各大頂會上的分布式機器學習主要是數學味道很濃的分布式數值優化算法。而聯邦學習可以看做一種特殊的分布式學習,它有一些特殊的設定,比普通的分布式學習要困難一些,還是有很多方向可以研究的,做好了應該可以發頂會。多智能體系統是一組自主的,相互作用的實體,它們共享一個共同的環境,利用傳感器感知,并利用執行器作動。 閱讀全文
最近這三個方面的論文都讀過,這里寫一篇博客歸納一下,以方便搞這幾個領域的其他童鞋入門。傳統的分布式機器學習已經被研究十幾年了,目前各大頂會上的分布式機器學習主要是數學味道很濃的分布式數值優化算法。而聯邦學習可以看做一種特殊的分布式學習,它有一些特殊的設定,比普通的分布式學習要困難一些,還是有很多方向可以研究的,做好了應該可以發頂會。多智能體系統是一組自主的,相互作用的實體,它們共享一個共同的環境,利用傳感器感知,并利用執行器作動。 閱讀全文
posted @ 2021-12-11 18:47
orion-orion
閱讀(6184)
評論(5)
推薦(4)

在之前的博客中我們提到過,設l為在標簽Y上定義的0-1多分類棄權損失的代理損失,則我們可以在此基礎上進一步定義棄權代理損失L。在這篇博客中,讓我們把注意力轉移一個新的方向——代理損失函數的泛化誤差界(generalization error gap)。差值R_L(hat{h}) - widehat{R}_L(hat{h})被稱為泛化差距(generalization gap),刻畫了學習算法輸出假設的泛化能力。證明學習算法的泛化界(generalization bound)即為證明其泛化差距被某個大致形如epsilon = O(C(H)/m)的項給界定,其中C(H)為假設空間H的模型復雜度,m為樣本個數。按照經典統計學習理論,一般假設空間H的模型復雜度越低,樣本個數m越多,學習算法的泛化性能越好。證明泛化界的問題可以轉化為證明經驗過程有界。
我們在上一篇博客中介紹了棄權學習的基本概念和方法,其中包括了針對多分類問題的單階段預測器-拒絕器棄權損失L_{abst}。設l為在標簽Y上定義的0-1多分類損失的代理損失,則我們可以在此基礎上進一步定義棄權代理損失L。在上一篇博客中,我們還提到了單階段代理損失滿足的(H, R)-一致性界。不過,在上一篇博客中,我們并沒有展示單階段代理損失的(H, R)-一致性界的詳細證明過程,在這片文章里我們來看該如何對該定理進行證明(正好我導師也讓我仔細看看這幾篇論文中相關的分析部分,并希望我掌握單階段方法的證明技術)。
棄權學習(learning with abstention)主要是為了使分類器在學習過程中可能出現的誤導性或者不正確的信息時(這常被稱為“幻覺”),能夠對做出預測進行棄權。目前,棄權學習的方法主要可以分為以下幾種:基于置信度的方法(confidence-based methods)。這種方法在預訓練模型返回的分數低于某個閾值θ時棄權;選擇性分類(selective classification)。設置一個預測器和一個選擇器,并定義被期望的選擇或收斂度歸一化的選擇風險或損失;預測器-拒絕器公式(predictor-rejector formulation)。同時學習一個預測器和一個拒絕器,它們來自不同的函數族,這種方法顯式地考慮了棄權花費c,當學習器棄權時將導致大小為c的損失;基于分數的公式(score-based formulation)。對多分類類別進行增廣(多一個拒絕標簽類型),當分配給拒絕標簽的分數最高時進行棄權。
高斯分布,也被稱為正態分布,廣泛應用于連續型隨機變量分布的模型中。高斯分布可以從多個不同的角度來理解。例如,對于一個一元實值向量,使得熵取得最大值的是高斯分布。這個性質對于多元高斯分布也成立。當我們考慮多個隨機變量之和的時候,也會產生高斯分布。觀察式多元高斯分布的形式,考慮其中在指數位置上出現的二次型(x - mu)^T∑^{-1}(x - mu)。由于協方差矩陣∑是對稱矩陣,那么∑^{-1}也是對稱矩陣。我們假定∑是正定的,那么∑^{-1}也是正定的。于是,該二次型為x到mu的馬?距離(Mahalanobis distance)Delta的平方。當∑是單位陣時,就變成了歐氏距離。
離散隨機變量的二項分布和多項式分布,以及連續隨機變量的高斯分布,這些都是參數分布(parmetric distribution)的具體例子。之所以被稱為參數分布,是因為少量可調節的參數控制了整個概率分布。在頻率派的觀點中,我們通過最優化某些準則(例如似然函數)來確定參數的具體值。而在貝葉斯派的觀點中,給定觀測數據,我們引入參數的先驗分布,然后使用貝葉斯定理來計算對應后驗概率分布。我們會看到,對于貝葉斯參數估計而言,共軛先驗(conjugate prior)有著很重要的作用。它使得后驗概率分布的函數形式與先驗概率相同,因此使得貝葉斯分析得到了極大的簡化。例如,二項分布的參數的共軛分布為Beta分布,多項式分布的參數的共軛分布為狄利克雷分布(Dirichlet distribution),而高斯分布的均值的共軛先驗是另一個高斯分布。所有這些分布都是指數族(exponential family)分布的特例。在本篇博客中我們將會介紹二項分布與多項式分布的共軛先驗,高斯分布的共軛先驗留在下一篇博客中進行介紹。
我們在上一篇博客中介紹了采用貝葉斯方法進行假設檢驗。其中,我們提到了公式:P(H | DX) = P(H | X)P(D | HX)/P(D | X),其中X為先驗信息,H為待檢驗的假設,D為數據。該公式是我們試圖從數據中得出結論的一大類科學推斷問題背后的基本原理。在這一篇博客中,我們將看下采用貝葉斯方法進行的假設檢驗在實踐中是如何表現的。我們將討論一些概率論的“怪異”應用。所謂“怪異”,即“偏離常規”,沒有正確地使用概率論導致了錯誤。大概任何全新的應用都必須經過這種類似的怪異探索階段。在許多情況下,我們認為今天的怪異應用可能成為明天受人尊敬的有用應用。我們將會使用貝葉斯分析來重新考慮這些問題,并消除掉其中的“怪異”,獲得一些有用的結論。
我們在上一篇博客中介紹了傳統的抽樣理論。其中,我們導出了幾種經典的抽樣分布,也即給定關于所觀察現象的假設H,數據D的概率分布p(D | H)。在上一篇博客中提到的伯努利壇子模型中,假設H即壇子的內容,數據D即重復抽球所生成的紅球和白球序列。但正如我們我們在上一篇博客的末尾所述,幾乎所有實際的科學推斷問題都處在相反的使用場景:我們已知數據D,希望確定假設H。更一般地說,已知數據D,如何求概率分布p(H_1 | D), p(H_2 | D), ...,以指出給定假設{H_1, H_2, ...}中哪一個成立?例如,我們的假設可能是對生成數據的物理機制的各種推斷。但是從根本上講,物理因果關系不是問題的必要組成部分,重要的只是假設和數據之間有某種邏輯關系。我們將這類問題稱為假設檢驗(hypothesis testing)。
我們先考察無放回抽樣(sampling without replacement) 實驗,也即從有N個球的壇子里無放回地抽n個球,我們會發現實驗結果服從超幾何分布/廣義超幾何分布。接著,我們會討論前向推斷和后向推斷兩類問題。然后,我們會研究無放回抽樣的極限形式,這將導出二項分布/多項分布。關于多項分布,我們還會進一步討論統計力學中的麥克斯韋-玻爾茲曼統計。最后,我們會考察更復雜的有放回抽樣(sampling with replacement) 實驗,也即從有N個球的壇子里無放回地抽n個球。注意,與許多人認為的相反,我們認為無放回抽樣更復雜,因為我們需要考慮大量的額外背景信息并進行分析。之所其二項分布的數學形式更簡單,是由于我們做出了隨機化的額外假設導致的,我們所得到的只是個近似的結果。最后,我們會對有放回抽樣的近似結果做進一步的相關性校正,這將得到一個馬爾可夫鏈模型。
我們在上一篇博客中介紹了合情推理中所要滿足的合情條件。在這一篇博客中我們將看到,上述條件皆不是空穴來風,而且不多不少剛剛好。一旦我們導出了滿足上述合情條件的合情推理定量規則,我們就會發現,我們實際上就得到了概率的原始定義(乘法規則 + 加法規則 + 無差別原則)。其中,條件(Ⅰ)(Ⅱ)(Ⅲa)是機器人大腦的“結構性”條件,決定了推理機器人大腦的內部運作規則(這里的“大腦”可以指電路 / 神經網絡 / ...),導出概率的乘法規則(product rule):p(AB | C) = p(A | C)p(B | AC)=p(B | C)p(A | BC)和加法規則(sum rule):p(A | B) + p(非A | B) = 1(p(x)是任意連續單調遞增函數,值域為0 <= p(x) <= 1)而條件(Ⅲb)(Ⅲc)是“接口”條件,進一步建立了推理機器人與客觀世界的聯系。其中,(Ⅲc)導出概率的無差別原則(principle of indifference):p(A_i | B) = 1 / n, 1 <= i <= n。
最近蔻享學術主辦了每周一次的《概率論沉思錄》讀書會活動,恰好我也正在讀該書中譯版,通過該活動我了解到了不同學科的老師(數學/物理/統計/計算機)對這本書的不同理解,而我自己對該書的理解也在這個過程中逐漸深入了。于是準備每周都持續更新一下我的讀書筆記。本書作者是一位物理學家,不同于基于Kolmogorov公理化概率論中先從概率空間和測度的定義入手來講概率論,而是先從現實世界的經驗背景入手提出合情推理和合情程度的概念,然后再介紹合情程度需要滿足的定性條件(即合情條件),最后在此基礎上推導出合情推理所要滿足的定量規則,即乘法規則和加法規則(對應本書第1、2章的內容)。
浙公網安備 33010602011771號