<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      數據分析中的數據缺失問題

      本文是對《A Review of Methods for Missing Data》的學習筆記,部分觀點和定義收集自其他地方。有一些術語對不上號,就直接用英文了……

      簡要

      一些建模方法是基于數據的,而數據表單可能存在缺失項(尤其是社會調查類),此時主要的處理方法包括complete case analysis, available case analysis, single value imputation, maximum likelihood for multivariate normal data, 和 multiple imputation。

      但是這些方法或多或少有一些前提條件,即使滿足統計上的前提條件,在實際操作中也可能不適用。本文將闡釋其中的一些概念,以及具體分析各種方法合適的應用場景。我們將重點關注缺失數據的規模,它們與完整觀測的數據的在分布上的關系,以及數據缺失的原因

      數據缺失的類型

      首先明確本文中出現的一些描述的含義:

      • 變量,是指某個統計量,既有自變量也有因變量;
      • 數據,是指某個變量的統計數值,我們說的“缺失”是針對數據來說的;
      • 樣本,包含若干數據。

      如果一個變量在所有樣本中的數據都沒有缺失,則這個變量沒有數據缺失。如果一個樣本的所有變量的數據都沒有缺失,則這個樣本沒有數據缺失。

      基于數據缺失的原因,我們對有缺失數據的變量進行分類,此處給出一些通俗的定義:

      • MCAR(missing completely at random),顧名思義,該變量發生數據缺失是完全隨機的,缺失的原因與所有數據無關;或者說,對于任意兩個樣本,它們該項數據缺失的可能性一樣。比較有用的等價說法是,沒有數據缺失的樣本是在樣本空間中的隨機采樣。比如說被試者拋硬幣決定他們是否填寫這一數據,這與所有被調查的數據無關。
      • MAR(missing at random),此處的 "random" 是對于該變量來說的,該數據是否缺失與該數據本身的值無關,但是與其他數據有關;或者說,任意取兩個除了該變量以外,其他沒有數據缺失的變量取值完全一樣的兩個樣本,它們的該項數據缺失的可能性一樣。比方說某個變量與被試者的年齡有關,年齡越大,發生缺失的可能性越大,但是對于年齡相同的人來說,它們缺失的可能性是相同的,并不與它們原本的值有關。
      • MNAR(missing not at random),數據發生缺失的可能性與該數據原本的值有關。比如說高收入人群可能不愿意透露自己的收入,如果我們只調查收入,那么該項缺失的概率與它原本的值有關,收入越高,收入這一項缺失的可能性越高。

      我們可以想到 MNAR 是最難處理的情況,我們缺失的值與它本身有關,這樣我們既不能直接去除樣本(這樣會導致樣本集的分布發生變化),也很難用預測算法去補充缺失的值。

      至于如何判斷變量的數據缺失是什么類型,一種是直觀的,比如說某個變量從現實意義上就與其他沒有數據缺失的變量無關,那么它自然是 MNAR;并且,我們可以假設該變量符合 MNAR 情況,然后對該樣本空間計算似然(Little's MCAR Test)。MAR 是相當難判斷的。MNAR 是最難處理,但普適性也最強的情況,對于這種情況我們會將數據的缺失機制進行建模,但這些方法在本文中不會涉及,因此在確認變量不是 MCAR 時,我們往往直接用 MNAR 的處理方法。

      數據分析方法

      常用的方法分為兩類,一類是不考慮數據結構的,包括 complete case analysis, available case analysis 和 single-value imputation;另一類是基于對數據分布的建模的,包括最大似然和多重插補。

      下面我們會逐個分析這五種方法,其中有一些是不建議使用的,下文將會闡明其原因,而另一些則在某些情況下適合。

      常規方法

      Complete case analysis

      一種非常暴力的方法,直接刪去有數據缺失的樣本。使用這種方法需要作出數據缺失符合 MCAR 的假設,否則樣本空間的分布會發生變化,導致結果的偏差。此外,這種方法也只適用于數據缺失量小的情況下。一方面,數據缺少量小時,我們可以認為刪除極小部分樣本對樣本空間分布影響不大,另一方面,我們仍然有足夠的數據用于分析。

      Available case analysis

      類似于 complete case analysis 的忽視數據缺失樣本的方法,當我們計算只與某幾個變量相關的統計量時,我們只關注這幾個變量是否缺失。如果我們關注的變量的數據缺失了,那么舍棄這個樣本,而其他變量的數據是否缺失我們并不關心。

      如果這些變量的缺失都是 MCAR 的話,這個統計量并不會有什么問題(注意如果是 MAR 也有問題,會導致整個樣本空間的分布變化)。但是如果我們同時要計算多個統計量,比如說計算 \(X, Y\) 的協方差,用 \(S_X, S_Y\) 分別表示樣本中 \(X, Y\) 未缺失的子集

      \[C(X,Y)=\frac{\sum_{i\in S_X\cap S_Y}(x_i-\bar{x})(y_i-\bar{y})}{|S_X\cap S_Y|} \]

      而我們的 \(\bar{x}, \bar{y}\) 是分別在 \(S_X, S_Y\) 上計算的,假設并不能保證 \(S_X\cap S_Y\)\(S_X, S_Y\) 的分布相同,那么這樣計算就有偏差,甚至于計算出不符合統計量的實際意義的值(比方說計算 correlation 計算出絕對值大于 \(1\) 的值)。

      有論文表明在研究多變量統計量時,如果變量間存在強相關性,available case analysis 不如 complete case analysis。

      Single-value imputation

      除了直接扔掉有數據缺失的樣本,我們還可以嘗試填補缺失的數據。Single-value imputation 指的是只看單變量進行填補,并不考慮它和其他變量的關系,而一般來說我們采用均值填補。

      我們從一些基本的統計量分析這樣填補造成的影響。由于填入的數是原本未缺失的數據的均值,所以變量的均值和填補前一樣;填入均值不會貢獻到方差的分子,但是會增加分母(增大樣本量),所以方差會減小。

      這樣的填補的問題自然是很明顯的:首先,未缺失數據的均值未必是真實數據的均值;其次,填入過后方差必然減少,如果填入量較大的話,很有可能得到一個相當小的方差,無法反映自然數據中的不確定性。此外,如果變量的實際意義重要,那么直接填入均值并不能提供有效信息。

      實際上,在任何情況下都不建議使用均值填補!

      基于對數據分布建模的方法

      上文的三種方法都沒有考慮整個數據集的變量結構——單個變量自身的分布和變量間的關系,也即所有變量的聯合分布。如果我們對這一結構作出假設,進行建模,那么我們可以更好地估計缺失數據的值。而我們對聯合分布的形式的假設為多元正態分布,這一假設是經驗性的,并且在許多機器學習領域的例子表明正態分布的容錯率很高。

      當然,多元正態分布也有缺點——無法處理分類變量。如果分類變量的類別較少(比如性別),那么直接把類別編號強行擬合正態分布的效果往往很差。而通常的處理方法就是只考慮相同分類的樣本(在給定分類中,樣本集仍然是多元正態分布)。這就要求所有的分類變量都已知

      但是我們并不打算對數據的缺失機制進行建模,于是在多元正態分布的假設上再加一條假設,數據缺失符合 MCAR 或 MAR,這是依據已知數據預測缺失數據的基礎。(實際上由于 MAR 很難驗證,MCAR 又很難滿足,我們往往直接這樣假設。經驗表明,造成的偏差不會太大。)

      最大似然法

      在這里,我們并不打算真的填補缺失的數據,而是從high-level的角度直接得到對所有變量的聯合分布的估計,按論文的說法,我們要估計樣本空間的充分統計量。在我們的假設(多元正態分布)下,就是估計均值、協方差矩陣。當我們求得了這個分布,我們可以直接從這個分布中獲取所需的統計量,或者進行回歸等計算。

      我們認為變量本身有客觀存在的分布,而我們現在要求出這個分布,使得其在被觀測到的數據(沒有缺失的數據)上的似然最大——這一原理是說得通的。直接列出似然對于均值、協方差均值的函數是非常復雜的,我們采用 EM 算法來求解這個最大似然問題。具體地:

      • E步:基于上一次獲得的分布(均值和協方差,如果是第一次,則初始化均值和協方差矩陣,具體策略不展開),對每一個樣本的缺失數據的分布進行估計。這是一個條件分布,也即給定未缺失的數據的條件下,缺失數據的分布仍然是多元高斯分布。也可以理解為這個分布就是我們對缺失數據的填補。
      • M步:根據我們對缺失數據的分布的估計,重新計算均值和協方差矩陣的期望。這里直接取期望實際上是最大化似然的結果。

      論文 Maximum Likelihood from Incomplete Data via the EM Algorithm 中證明了 EM 算法在這一問題上的收斂性。

      需要注意的是,作為一種迭代算法,EM 算法可能會收斂到局部最優,不過就像神經網絡的梯度下降法,這里的局部最優往往問題也不大。此外,EM算法收斂可能比較慢。

      多重插補

      這個部分可能會在之后進行補充關于 Data augmentation 的具體實現。

      多重插補相較于最大似然法的區別主要是:最大似然法目標是估計充分統計量,而多重插補則直接獲取缺失數據的估計值。但是我們不會只取一個估計值填入缺失數據,一般會生成三個(或者更多)平行的數據集,我們在這些數據集上做平行的計算,最后統一結果。

      具體地,多重插補分為兩步。第一步即數據填補獲得多個平行數據集。我們用 Bayesian Theory 推導變量的聯合分布,進而計算缺失的數據在給定已知數據的后驗分布。數據的填補就是從這個后驗分布中抽樣獲得的。第二步則是在數據集上進行平行的計算。其中第二步相當于在完整的數據上進行運算,主要難度在于第一步如何推導缺失的數據的后驗分布。我們采用另外一種迭代方法——data augmentation,具體實現不展開。

      如果缺失的數據量較多,我們可能需要數千次迭代。


      THE END

      posted @ 2023-09-17 15:39  Lucky_Glass  閱讀(742)  評論(0)    收藏  舉報
      TOP BOTTOM
      主站蜘蛛池模板: 国产精品日韩专区第一页| 免费a级黄毛片| 国产精品乱码人妻一区二区三区| 新化县| 强伦人妻一区二区三区| 日韩国产精品中文字幕| 小婕子伦流澡到高潮h| 国产一区二区午夜福利久久| 国产亚洲精品日韩av在| a在线免费| 不卡乱辈伦在线看中文字幕| 波多野结av在线无码中文免费| 亚洲精品在线二区三区 | 日韩内射美女人妻一区二区三区| 亚洲国产日韩一区三区| 欧美激欧美啪啪片| 亚洲综合中文字幕首页| 望都县| 三上悠亚精品一区二区久久| 无码日韩做暖暖大全免费不卡| 一本久道中文无码字幕av| 国产成熟女人性满足视频| 成人免费A级毛片无码片2022 | 精品夜恋影院亚洲欧洲| 日本阿v片在线播放免费| 亚洲 欧美 唯美 国产 伦 综合| 野外少妇被弄到喷水在线观看| 亚洲国产一区二区三区| 精品国偷自产在线视频99| 精品一区二区不卡免费| 日本夜爽爽一区二区三区| 亚洲精品天天影视综合网| 99精品国产综合久久久久五月天| 欧洲人与动牲交α欧美精品| japanese人妻中文字幕| 国产一区精品综亚洲av| 亚洲乱码一区二区三区视色| 亚洲一区二区三区在线播放无码| 无码国产偷倩在线播放老年人| 亚洲av熟女国产一二三| 久久精品亚洲日本波多野结衣|