讀商戰數據挖掘:你需要了解的數據科學與分析思維09文本的挖掘

1. 證據和概率
1.1. 對實例的了解視作支持或反對不同目標變量值的證據
1.2. 對實例的了解則可以表示為實例的特征
1.3. 如果你知道每個特征所提供的證據的強度,那么就能應用原則性方法,從概率上合并證據,從而得到有關目標變量值的結論
1.4. 作為消費者的我們,已經對網頁上貌似免費的大量信息和服務習以為常
- 1.4.1. 所謂的“免費”往往建立在線上廣告存在收益的基礎上,這與廣播電視的“免費”大同小異
1.5. 展示廣告與搜索廣告不同
- 1.5.1. 重要區別在于:在大多數頁面中,用戶通常不會輸入任何與他真正想找的內容有關的文字
1.6. 一個包含超過1億個博客和500億余篇博文的博客平臺
- 1.6.1. 每一個博客都可以視作為感興趣的用戶提供信息的“內容塊”
1.7. Facebook用戶留下的每一個“贊”也可以視為體現用戶喜好的證據,這同樣有助于精準投放廣告
1.8. 人類雖然能很好地用知識和常識辨別證據支持結論還是反對結論,但是在準確估計證據強度方面奇差無比
1.9. 歷史數據不僅能用于判斷證據的方向(支持或反對)?,還能用于估計證據的強度
1.10. 不只適用于證據評估,也適用于結合證據以估計類成員可能性
1.11. 每個單詞可能都會提供一些支持或反對分類的證據,而我們需要將這些證據結合起來
2. 根據概率合并證據
2.1. p(C|E)
-
2.1.1. 讀作“給定E后C的概率”或“在E的條件下C的概率”
-
2.1.2. 是一種條件概率,其中“|”有時也叫作“條件條”?
-
2.1.3. p(C|E)應隨證據E的改變而改變
2.2. 聯合概率與獨立性
-
2.2.1. 聯合概率,記作p(AB)
-
2.2.2. 用條件概率表示的聯合概率
-
2.2.2.1. p(AB)=p(A)·p(B|A)
-
2.2.2.2. A和B的概率等于A的概率乘以B在A的條件下的概率
-
2.2.2.3. 該公式是數據科學中(確切地說,是所有的科學中)最著名的公式之一的基礎
2.3. 事件可以完全獨立、完全不獨立或介于二者之間
-
2.3.1. 如果兩事件并非完全獨立,那么已知其一,另一事件的概率就會受到影響
-
2.3.2. 但p(AB)=p(A)·p(B|A)在所有情況下都適用
2.4. 貝葉斯法則
-
2.4.1. 以牧師Thomas Bayes的名字命名,他在18世紀推導出了該法則的一個特例
-
2.4.2. p(AB)=p(B)·p(A|B)
-
2.4.3. p(A)·p(B|A)=p(AB)=p(B)·p(A|B)
-
2.4.4. p(A)·p(B|A)=p(B)·p(A|B)
2.5. 貝葉斯方法
-
2.5.1. 貝葉斯法則與仔細思考條件獨立性這一基本概念相結合,構成了大量更為高級的數據科學技術的基礎
-
2.5.2. 包括貝葉斯網絡、概率主題模型、概率關系模型、隱馬爾可夫模型、馬爾可夫隨機場等
3. 將貝葉斯法則應用到數據科學中
3.1. 數據科學有極大一部分內容基于“貝葉斯”方法,而貝葉斯方法的核心推理又基于貝葉斯法則
3.2. p(C=c)是類別的先驗概率,即我們在看到證據前給類別分配的概率
-
3.2.1. ?“主觀”先驗,即某個決策者基于其所有的知識、經驗和觀點得出的信念
-
3.2.2. 基于先前在其他證據上應用的貝葉斯法則得出的“先驗”信念
-
3.2.3. 根據數據推斷出的無條件概率
3.3. p(E|C=c)是在類C=c的條件下,證據E(被用于對實例分類的特征)的概率
3.4. p(E)是證據的概率,即特征向量E在所有實例中的普遍程度
3.5. 數據科學中的貝葉斯方法通過假設概率獨立性來解決這樣的問題
- 3.5.1. 解決這種復雜問題的最常用方法是對獨立性做非常強的假設
3.6. 條件獨立和樸素貝葉斯
-
3.6.1. 兩事件相互獨立,意味著已知其中之一,不會得知另一事件的概率信息
-
3.6.2. 變量互相條件獨立,也就是說,在特征向量p(e1∧e2∧…∧ek|c)中,給定類c,每個ei都與其他ej相互獨立
-
3.6.3. 樸素貝葉斯方程
3.7. 樸素貝葉斯的優劣勢
-
3.7.1. 雖然樸素貝葉斯是個非常簡單的分類器,但是它仍將所有特征證據都考慮在內,因而在存儲空間和計算時間方面具有優勢
-
3.7.2. 雖然樸素貝葉斯非常“樸素”?,且其獨立性假設非常嚴格,但在許多現實分類問題上的表現卻驚人地好
-
3.7.2.1. 因為即使獨立性假設被違反,分類器的性能也一般不會降低
-
3.7.3. 業界人士的確會用樸素貝葉斯來排序,其各不同類別中僅包含實例的相對值
-
3.7.4. 樸素貝葉斯的另一個優勢是,它是一種天然的“增量學習器”
-
3.7.4.1. 增量學習器是一種能隨訓練更新模型的歸納技術
-
3.7.4.2. 每出現一個新的訓練實例它都會進行一次更新,且在出現新的訓練數據時,它不需重新處理所有訓練過的實例
-
3.7.4.3. 增量學習在應用過程中訓練標簽不斷顯露出來的情況下,尤其有優勢
-
3.7.5. 樸素貝葉斯正是許多個性化的垃圾郵件監測系統的基礎
-
3.7.6. 樸素貝葉斯幾乎包含在所有數據挖掘工具包中,作為常見的基線分類器,它常常用于與更復雜的方法作比較
3.8. 生成方法
-
3.8.1. 這其中一大類常用方法被稱為貝葉斯方法
-
3.8.2. 嚴格依賴于貝葉斯法則
3.9. 貝葉斯方法的相關文獻博大精深,你在數據科學領域也會發現它們非常常見
4. 證據“提升度”的模型
4.1. 提升度是正向類在選定的子總體中的比例與在整個總體中的比例之比
4.2. 證據提升度及其組合形式非常有助于理解數據和比較實例的分數,但概率的實際終值必須審慎考慮
5. 文本的表示和挖掘
5.1. 大部分數據挖掘方法是以特征向量為輸入的,然而在現實中,我們獲得的數據并非都是以特征向量形式表示的
5.2. 文本數據
-
5.2.1. 如今,由于互聯網已成為無處不在的溝通渠道,文本數據變得極為常見
-
5.2.2. 文本不過是數據的另一種形式,文本處理也只是表示工程的特殊情形
-
5.2.3. 實際上,處理文本不僅需要專用的預處理步驟,有時還需要數據科學團隊具有特定的專業知識
5.3. 文本無處不在
-
5.3.1. 許多傳統應用程序仍會產生或記錄文本
-
5.3.1.1. 病歷、用戶投訴記錄、產品查詢記錄和維修記錄仍是人與人(而非計算機)之間的主要交流方式,因此仍需將其“編碼”為文本
-
5.3.1.2. 要想對這類龐大的數據進行開發利用,必須將其轉換成有意義的形式
-
5.3.2. 包含大量個人網頁、Twitter簡訊、電子郵件、Facebook狀態更新、產品介紹、Reddit評論和博文等形式的文本
-
5.3.3. 由大量面向文本的數據科學支撐的
-
5.3.4. 在各個行業中,理解用戶的反饋通常需要理解文本
-
5.3.5. 如果想“聆聽用戶的意見”?,那么就得親自去讀此人所寫的內容,如產品評論、客戶反饋表格、意見書、電子郵件等
5.4. 比較簡單的方法是把數據轉化成符合現有工具要求的形式
- 5.4.1. 文本、圖像、音頻、視頻和空間信息形式的數據通常需要特別處理,有時甚至需要數據科學團隊具有一定的專業知識
6. 文本很難處理
6.1. 文本往往被稱作“非結構化”數據
-
6.1.1. 指的是文本中不含一般數據所具備的結構:由有固定意義的域構成的記錄表格(也就是特征向量的集合)?,以及表格之間的關聯關系
-
6.1.2. 雖然文本中的確存在大量結構,但是這些結構是語言學結構,它們可供人類理解,但計算機無法理解
6.2. 從數據角度看,文本相對較臟,因為人們寫東西常常不合文法,總是犯拼寫錯誤、把詞連在一起、胡亂縮寫和亂加標點
6.3. 也可能存在同義詞(多詞同義)和同形異義詞(一詞多義)
6.4. 文本在輸入數據挖掘算法前,必須經過大量的預處理
6.5. 通常,文本的特性越復雜,文本問題所包含的方面就越多
7. 表示法
7.1. 將文本的正文轉化成能直接輸入數據挖掘算法的數據集的基本步驟
7.2. 文本挖掘的一般策略是,在所有可用的技術里選擇最簡單的(也就是最便宜的)
7.3. 文檔指一段文本,無所謂長短。它既可以是一個句子,也可以是100頁的報告,還可以介于兩者之間
7.4. 一篇文檔中的所有文本會被放在一起加以考慮,并在匹配或分類時,將所有文本作為單獨一項進行檢索
7.5. 文檔由單獨的語符(token)或詞語(term)構成
7.6. 文檔的集合則被稱為語料庫(corpus)
7.7. 詞袋模型
-
7.7.1. 把一組文檔(每一篇都是形式自由的單詞序列)轉化為熟悉的特征向量形式
-
7.7.2. 每篇文檔都是一個數據項,而我們事先不知道它們的特征是什么
-
7.7.3. 把每篇文檔作為單詞的集合,忽略語法、詞序、句型結構和標點
-
7.7.4. 把文檔中的每個單詞都作為可能的重要關鍵詞
-
7.7.5. 該表示法非常簡單,生成成本不高,且適用于許多任務
-
7.7.6. 包在數學中指的是多重集,即其中的成員可以出現不止一次
-
7.7.7. 詞袋表示法首先把文檔當作單詞的包(即多重集)?,而忽略詞序及其他語言結構
-
7.7.8. 用于文本挖掘的表示法通常比單純計算詞頻更加復雜
-
7.7.9. 最基本的方法將每個單詞視作一個語符,并把每篇文檔用1(文檔中存在該語符)或0(文檔中不存在該語符)表示
-
7.7.9.1. 該方法將文檔簡化為其中所包含的一組單詞
-
7.7.10. 基本的詞袋模型方法相對簡單
-
7.7.10.1. 不需要復雜的解析能力和其他語言學分析,卻在許多工作中表現驚艷,因而往往是數據科學家解決新文本挖掘問題時的首選
-
7.7.11. 詞袋表示法將每個單詞作為一個詞語,完全忽略詞序
7.8. 詞頻
-
7.8.1. 用文檔中的字數(詞頻)代替0或1,這能區分單詞使用的次數
-
7.8.2. 詞頻表示法
-
7.8.2.1. 統一字母的大小寫,將每個單詞都變為小寫,從而使Skype和SKYPE相同
> 7.8.2.1.1. 由大小寫不同而產生的單詞變體非常常見(比如iPhone、iphone和IPHONE)?,所以統一大小寫一般非常必要
-
7.8.2.2. 對一些單詞進行詞干提取,去除它們的后綴,使類似于announces、announced和announcing的這樣動詞全都轉化為announc
-
7.8.2.3. 刪除停用詞
> 7.8.2.3.1. 停用詞是在英語(或任何一種需要解析的語言)中極其常見的詞,比如the、and、of和on,一般需要刪除
> 7.8.2.3.2. 停用詞并不總是需要刪除
-
7.8.2.4. 一些系統不會使用原始計數,而是會根據文檔長度,對詞頻進行標準化
-
7.8.2.5. 使用詞頻的目的是表示詞語與文檔的相關性
-
7.8.2.6. 長文檔的單詞往往比短文檔多,所以單詞的出現次數也更多
> 7.8.2.6.1. 并不意味著長文檔比短文檔更重要,或相關性更強
> 7.8.2.6.2. 為了根據文檔長度進行校正,需要用一些方法對原始詞頻進行標準化
7.9. 度量稀疏度
-
7.9.1. 逆文檔頻率
-
7.9.2. 詞頻度量的是一個詞語在一篇文檔中的普遍程度,那么在決定詞語的權重時,我們可能還想知道該詞在整個語料庫中的普遍程度
-
7.9.3. 一個詞語不能太罕見
-
7.9.4. 一個詞語也不能太常見
-
7.9.4.1. 過于常用的詞語通常會被刪掉,而實現方法之一是給可出現詞語的文檔數(或文檔所占比例)設定一個任意的上限
7.10. TFIDF
-
7.10.1. 一種非常流行的文本表示法是詞頻(TF)和逆文檔頻率(IDF)相結合的產物,俗稱TFIDF
-
7.10.2. 給定文檔d,詞語t的TFIDF值的計算方法
-
7.10.2.1. TFIDF(t, d)=TF(t, d)×IDF(t)
-
7.10.2.2. TFIDF針對的是單篇文檔(d)?,而IDF則依賴整個語料庫
-
7.10.3. 每篇文檔都變成了一個特征向量,而語料庫則是這些特征向量的集合,可用于數據挖掘中的分類算法、聚類算法或檢索
-
7.10.4. 文檔中含有許多可能具有文本表示功能的詞語,所以經常要用到特征選擇
-
7.10.5. 特征選擇的方法有很多,比如給詞語計數附加最小閾值或最大閾值,或按照諸如信息增益這樣的指標來將詞語按重要程度排序,從而剔除信息增益較低的詞語
-
7.10.6. 詞袋文本表示法把文檔中的每個詞作為獨立的潛在關鍵詞(特征)?,然后基于詞頻和罕見程度給每篇文檔賦值
-
7.10.7. TFIDF是一種常見的詞語值表示法,但它未必是最優的方法
8. n-grams序列
8.1. 詞序也很重要,其信息需要在表示中保留
8.2. 相鄰的兩個單詞通常叫作2-grams
8.3. 最大為3的n-grams詞袋
- 8.3.1. 指的是把每篇文檔中的單個單詞、相鄰兩個單詞和相鄰三個單詞組作為文檔特征對文檔進行表示
8.4. n-grams適用于特定詞組比較重要,而組成詞組的單詞卻意義不大的情況
8.5. n-grams的優勢是容易生成,不要求使用者掌握語言學知識或復雜的解析算法
8.6. n-grams的主要劣勢是其極大地擴大了特征集
- 8.6.1. 如果要在數據挖掘中應用n-grams,就必須額外考慮處理大量特征的問題(比如特征選擇)和計算存儲空間的問題
9. 命名實體提取
9.1. 包含某種命名實體提取器,它們通常可以處理原始文本,并提取出被標注為人名或組織名的短語
10. 主題模型
10.1. 主題層的中心思想是,首先對語料庫的主題集合分別建模
10.2. 把每篇文檔視作一個單詞序列,但是這次不直接把單詞用于最后的分類器,而把單詞映射到一或多個主題中
10.3. 最終的分類器則依據中間的主題來定義,而非單詞
10.4. 優勢是(比如在搜索引擎中)查詢可以使用與某文檔中特定單詞并不完全匹配的詞語
10.5. 構建主題模型的一般方法包括矩陣因子分解方法(如潛在語義索引)和概率主題模型(如隱含狄利克雷分配)?
10.6. 在主題建模中,詞語與主題相關聯,詞語權重則通過主題建模過程學習
10.7. 與聚類相同,主題從數據的統計規律性中顯現
10.8. 主題既不一定容易理解,也不一定為我們所熟知
10.9. 主題是隱含信息
-
10.9.1. 主題模型是一種隱含信息模型
-
10.9.2. 隱含信息可以理解為信息中一種未被觀測到的中間層,處于輸入層與輸出層之間
-
10.9.3. 尋找文本中的隱含主題和尋找觀影者的隱含“品味”維度這兩種技術在本質上是相同的
-
10.9.4. 不僅要將單詞映射到(未被觀測到的)主題,還要將主題映射到文檔,而這雖然使得整個模型更加復雜、學習成本更高,但也會使其性能更好
11. 通過挖掘新聞報道預測股價變動
11.1. 股票市場在每個交易日都會有所變動,企業會進行決策并宣布決策,如并購、發布新產品、收益預期等,而金融新聞行業會對此進行報道
11.2. 提前很長時間預測新聞效果是很難的
- 11.2.1. 由于股票太多,因而新聞發布會很頻繁,而市場會隨之快速做出反應
11.3. 準確預測股價是很難的,因此我們只需正確預測股價變化方向:上漲、下跌或不變
11.4. 預測股價的微小變動是很難的,因此我們將只預測較大的變動
11.5. 將股價變動與特定的新聞報道關聯起來是很難的,原則上,任何新聞都有可能影響股價
11.6. 新聞報道(文本文檔)的時間序列和其對應的每日股價的時間序列
11.7. 金融新聞種類廣泛,包括收益報告、分析師評估(?“我們要重申對蘋果的‘強力買入’評級”?)?、市場評論(?“今晨的其他市場推手股票包括Lycos公司和Staples公司”?)?、證券交易委員會檔案、財務資產負債表等
11.8. 新聞格式多種多樣,有的新聞是列表數據,有的則是多段“今日頭條新聞”的格式,不一而足
11.9. 股票標簽并不完美
11.10. 交易時間之外會有許多事件發生,因而靠近開盤時間和收盤時間時股價波動很大
11.11. 新聞報道更需要謹慎對待
浙公網安備 33010602011771號