讀商戰數據挖掘:你需要了解的數據科學與分析思維07相似性

1. 概述
1.1. 相似性是許多數據科學方法和商業問題解決方案的基礎
-
1.1.1. 共通之處
-
1.1.2. 很多數據挖掘過程通常基于相似性或尋找“合適”的相似性來對個體進行分組
-
1.1.3. 分類模型生成分類邊界來將目標變量值相同的個體歸為同一組
1.2. 相似性可以用于分類和回歸
1.3. 亞馬遜和Netflix這樣的現代零售商利用相似性來推薦相似的商品或基于相似的用戶提供推薦服務
2. 相似性和距離
2.1. 兩個個體之間相似性的一個常用的替代指標是,兩者在由特征向量定義的實例空間中的距離
2.2. 只有在對象被表示為數據后,才能更精確地討論對象間的相似性或距離
2.3. 兩個對象在由特征定義的空間中距離越近,兩者就越相似
2.4. 作為組織數據實例(重要對象的代表)空間的方法,為了服務于特定目的,相似的實例會被相似地對待
2.5. 分類樹和線性分類器都能通過構建分區邊界來區分不同類別
2.6. 歐幾里得距離不僅限于二維
3. 最近鄰推理
3.1. 有了度量距離的方法,就可以用它來解決數據分析工作中的許多問題了
3.2. 最近鄰的概念來進行預測建模
-
3.2.1. 分類
-
3.2.2. 概率估計
-
3.2.3. 回歸
3.3. 近鄰的數量及其影響
-
3.3.1. 計算所使用的最近鄰的數目沒有單一標準,但奇數更能避免二元類問題中多數票決方式的平局問題
-
3.3.2. 最近鄰算法通常簡寫為k-最近鄰,其中k指代所選取的最近鄰數
- 3.3.2.1. k越大,得到的平均估計值越平滑
-
3.3.3. 分類問題中新個體的目標變量預測值會是整個數據集中占多數的類
-
3.3.4. 回歸問題中新個體的目標變量值是所有目標變量值的平均值
-
3.3.5. 類概率估計問題中新個體的目標變量值則是“基礎比率”概率值
-
3.3.6. 加權表決或相似性適度投票
-
3.3.7. 加權評分有一個好處,就是削弱了決定最近鄰個數的重要性
- 3.3.7.1. 每個最近鄰的貢獻度與距離掛鉤,所以越遠的近鄰自然影響越小,故而在使用加權評分法時,k的取值不像在多數票決法或未加權平均法中那樣關鍵
3.4. 幾何解釋、過擬合和復雜度控制
-
3.4.1. 沒有明確的邊界,但是由實例間的相鄰關系構造的隱性區域確實存在
-
3.4.2. 1-最近鄰分類器
- 3.4.2.1. 1-最近鄰分類器同樣能完美地預測訓練個體,但經常也可以對其他個體做出合理預測:因為它用的是與之最相似的訓練個體
-
3.4.3. 查詢表不含任何相似性的概念,所以它只會完美預測某個特定的訓練個體,而對其他個體則給予一樣的默認預測
3.5. 最近鄰方法的問題
-
3.5.1. 易理解性
-
3.5.1.1. 做出特定判斷的理由和整個模型的易理解性
-
3.5.1.2. 整個最近鄰模型判定新個體的方法也非常容易解釋,這種通過尋找最相似的實例并以它們的分類或值來進行預測的思路,對許多人來說都非常直觀
-
-
3.5.2. 維度和領域知識
-
3.5.2.1. 當屬性過多,或與判斷相似性不相關的屬性過多時,也會存在嚴重的問題
-
3.5.2.2. 實例的相似性會大大地被過多的無關變量所誤導或擾亂
-
3.5.2.3. 解決無關屬性過多的問題的方法有很多,其中一個是特征選擇,即審慎地選擇應進入數據挖掘模型的特征
-
3.5.2.4. 在相似性計算中注入領域知識的方法是手動調整相似性/距離函數
-
-
3.5.3. 計算效率
-
3.5.3.1. 最近鄰方法的優勢之一是訓練速度快,因為其僅需要對個體進行存儲,而無須構建模型
-
3.5.3.2. 一些商業數據庫和數據挖掘系統會用kd樹和散列方法等專門的數據結構提升最近鄰查詢的效率
-
4. 其他距離函數
4.1. 歐幾里得距離(Euclidean distance)可能是數據科學領域應用最廣的距離度量方法
- 4.1.1. 它在每個維度使用距離的平方,因而有時也叫“L2范數”?,記作“||·||2”?
4.2. 曼哈頓距離(Manhattan distance)(或稱L1范數)是兩個數據點不同維度上的距離(非平方項)的和
4.3. 杰卡德距離(Jaccard distance)
- 4.3.1. 它能把兩個對象作為特|X征∩集Y合| 進行處理
4.4. 余弦距離(cosine distance)
-
4.4.1. 常在文本分類中用于度量兩篇文檔的相似性
-
4.4.2. 信息檢索的文獻中更常使用余弦相似性
-
4.4.3. 在文本分類中,每個詞和記號都對應一個維度,文章在每個維度上的位置則指的是文章中每個詞出現的次數
-
4.4.4. 尤其適用于需要忽略實例間尺度差異的情況
- 4.4.4.1. 就是需要忽略向量的幅度的情況
4.5. 編輯距離或萊文斯坦距離
-
4.5.1. 常用于生物領域,以計算等位基因串的遺傳距離
-
4.5.2. 如果數據項包含需要在意順序的字符串或序列,那么我們通常會使用編輯距離
5. 組合函數
5.1. 計算近鄰的評分
5.2. 多數票決分類
5.3. 多數票決得分函數
5.4. 相似性適度分類
5.5. 相似性適度評分
5.6. 相似性適度回歸
6. 聚類
6.1. 聚類是相似性這一基本概念的另一種應用
6.2. 其基本思路是,找出個體(如用戶、企業、威士忌等)的某種分組,使得同一組內的個體之間相似,不同組內的個體之間不相似
6.3. 有監督建模方法是基于目標變量值已知的數據來發現能夠預測特定目標變量的值的模式
6.4. 無監督建模則不關注目標變量,而是尋找數據中其他形式的規律
6.5. 層次聚類
-
6.5.1. 這種方法之所以是聚類方法,是因為它根據數據點的相似性對其進行了分組
-
6.5.2. 層次聚類關注的是不同實例間的相似性,以及如何依據相似性將它們進行鏈接
-
6.5.3. 層次聚類的好處之一是,數據分析師可以在決定獲取的簇個數之前看到分組情況,即數據相似性的“格局”?
6.6. 根據形心的聚類
-
6.6.1. 另一種考慮聚類數據的方法是關注簇本身,即實例構成的組
-
6.6.2. 最常用的基于形心的聚類算法稱作k-均值聚類
- 6.6.2.1. k-均值的“均值”指的是形心,即簇中實例在每個維度上的值的算術平均值(平均值)?
-
6.6.3. 失真度
-
6.6.3.1. 簇中所有數據點與其對應簇形心的距離平方之和
-
6.6.3.2. 失真度越低,聚類越優良
-
-
6.6.4. k-均值算法之類的形心算法通常需要注意的一點是如何確定恰當的k值
-
6.6.5. 隨著k的增大,聚類的質量終會趨于穩定
-
6.6.5.1. 如果該度量方法是最小值最優,則聚類的質量收斂于底部
-
6.6.5.2. 如果為最大值最優,則聚類的質量收斂于頂部
-
-
6.6.6. 任何聚類過程都可以應用這種展示形心的方法
- 6.6.6.1. 但這樣是否有意義,則取決于數據的值本身是否有意義
6.7. 雖然我們不期望每個簇都有意義且有趣,但聚類往往可以在數據中發掘出出乎意料的結構
- 6.7.1. 簇還能使我們發現嶄新且有意思的數據挖掘機會
6.8. 無論產生聚類的方式如何,最終我們都會知道每個數據點被分配到哪個簇
6.9. 簇形心實際上描述了簇成員的平均水平
6.10. 特性描述關注的是組內共性,而差異描述則關注的是組間差異
- 6.10.1. 兩種方式沒有哪個絕對更好,具體要取決于你的使用目的
6.11. 即使聚類結果似乎揭露了有趣的信息,我們也經常不清楚如何用該結果來優化決策
浙公網安備 33010602011771號