摘要:
目的:把文本用數(shù)據(jù)的形式表達出來 方法:傳統(tǒng)基于規(guī)則,現(xiàn)代基于統(tǒng)計 一、詞編碼方式1——離散表示 1、One hot編碼 和句子中順序無關(guān),耗空間耗時 2、詞袋模型 每個數(shù)表示該詞出現(xiàn)的次數(shù)(One hot的加和) 3、TF_IDF 每個數(shù)代表該詞在整個文檔中的占比 4、N gram 相鄰N個詞作為 閱讀全文
posted @ 2017-07-26 22:30
謙芊珺
閱讀(1693)
評論(0)
推薦(0)
摘要:
1、tips 1、行業(yè)基準:用詞袋模型表示句子,用SVM或LR做回歸,用自己的模型和它做對比 2、分詞:啟發(fā)式或機器學習(HMM,CRF) 3、深度學習是端到端的 2、Auto Encoder 可將語料編碼化,降維降噪 3、CNN 機器自動學習卷積濾鏡 用word2vec將一句話處理成一個矩陣,用C 閱讀全文
posted @ 2017-07-26 22:29
謙芊珺
閱讀(345)
評論(0)
推薦(0)
摘要:
為了解決“一詞多義”和“多詞一意”的問題,引入“主題” LDA本質(zhì)是一個三層貝葉斯網(wǎng)絡 1、共軛分布 1、Beta分布是二項分布的共軛先驗分布 2、Dirichlet分布是多項分布的共軛先驗分布 Dirichlet分布的參數(shù)$[\alpha_{1},\alpha_{2},....,\alpha_{n 閱讀全文
posted @ 2017-07-26 22:28
謙芊珺
閱讀(771)
評論(0)
推薦(0)
摘要:
1、統(tǒng)計機器翻譯三要素 1、翻譯模型 2、語言模型 3、排序模型 2、翻譯流程 1、雙語數(shù)據(jù)預處理 2、詞對齊 3、構(gòu)造短語翻譯表 4、對短語翻譯表進行概率估計 5、解碼,beam search 6、評估 閱讀全文
posted @ 2017-07-26 22:28
謙芊珺
閱讀(788)
評論(0)
推薦(0)
摘要:
1、詞袋模型 認為詞語間相互獨立,失去詞語間的順序信息,相當于把詞放在一個袋子里。 2、N gram模型 引入了詞與詞之間的順序。 這個N是一個超參數(shù)。 1、一般能用2 gram盡量用2 gram。 2、平時3 gram用的多。 3、n =4的情況很少,在有特別多語料時可以嘗試到5 gram 閱讀全文
posted @ 2017-07-26 22:27
謙芊珺
閱讀(307)
評論(0)
推薦(0)
摘要:
1、字符串常用命令 2、正則表達式 3、Python的re模塊 4、jieba分詞工具 閱讀全文
posted @ 2017-07-26 22:26
謙芊珺
閱讀(356)
評論(0)
推薦(0)
摘要:
1、隱馬爾可夫HMM模型 一個隱馬爾可夫模型可以表示為$$\lambda=\{A,B,\pi\}$$具體就不說了,比較基本。 2、HMM模型的三個基本問題 1、概率計算問題:給定$\lambda$和觀測序列$\{x_{i}\}$,求$P(x_{i}| \lambda)$。主要方法是前向計算法或后向計 閱讀全文
posted @ 2017-07-26 22:25
謙芊珺
閱讀(230)
評論(0)
推薦(0)
摘要:
一、貝葉斯網(wǎng)絡 本文介紹貝葉斯網(wǎng)絡。貝葉斯網(wǎng)絡與前面的大多數(shù)算法有一些區(qū)別,它歸屬與貝葉斯學派,屬于判別式模型。前面介紹大多數(shù)算法歸屬于頻率學派,屬于生成式模型。 貝葉斯網(wǎng)絡可以看成是一個DAG(有向無環(huán)圖)模型 貝葉斯網(wǎng)絡的三個知識點 1、網(wǎng)絡如圖所示:$$A\leftarrow C\righta 閱讀全文
posted @ 2017-07-26 22:24
謙芊珺
閱讀(484)
評論(0)
推薦(0)
摘要:
本文主要簡述聚類算法族。聚類算法與前面文章的算法不同,它們屬于非監(jiān)督學習。 1、K means聚類 記k個簇中心,為$\mu_{1}$,$\mu_{2}$,...,$\mu_{k}$,每個簇的樣本數(shù)為$N_{i}$ 假設每個簇中的數(shù)據(jù)都滿足分布$N(\mu_{i},\sigma)$,即方差相同,均值 閱讀全文
posted @ 2017-07-26 22:23
謙芊珺
閱讀(1554)
評論(0)
推薦(0)
摘要:
一、GMM算法 EM算法實在是難以介紹清楚,因此我們用EM算法的一個特例GMM算法作為引入。 1、GMM算法問題描述 GMM模型稱為混合高斯分布,顧名思義,它是由幾組分別符合不同參數(shù)的高斯分布的數(shù)據(jù)混合而成的。 假設有n個樣本點$x_{1},x_{2},...,x_{n}$,它們來自K個不同的高斯分 閱讀全文
posted @ 2017-07-26 22:23
謙芊珺
閱讀(810)
評論(0)
推薦(0)
摘要:
1、集成 集成指用多個基學習器共同構(gòu)成一個更加強大的學習器。 集成包含三種方法:Boosting,Bagging,Stacking 1、Boosting:包括GBDT和Adaboost,各學習器間存在強依賴關(guān)系,只能串行實現(xiàn) 2、Bagging的代表算法是隨機森林,各學習器間不存在強依賴關(guān)系,可以并 閱讀全文
posted @ 2017-07-26 22:22
謙芊珺
閱讀(181)
評論(0)
推薦(0)
摘要:
一、信息熵 首先給出信息熵的定義如下$$H\left( x\right) = \sum _{x\in \chi }p\left( x\right) \ln p\left( x\right) $$ 1、無約束條件時,均勻分布熵最大 2、若給定分布的期望和方差,則正態(tài)分布的熵最大 二、決策樹是什么 決策 閱讀全文
posted @ 2017-07-26 22:20
謙芊珺
閱讀(329)
評論(0)
推薦(0)
摘要:
1、問題介紹 本文只涉及二分類支持向量機。 支持向量機問題可以分為三種情況來討論: 1、硬間隔支持向量機:用于可以被一個超平面嚴格分開的問題中,又稱為線性可分支持向量機 2、軟間隔支持向量機:用于可以被一個超平面非嚴格分開的問題中,又稱線性支持向量機 3、核支持向量機:用于可以被一個超曲面分開的問題 閱讀全文
posted @ 2017-07-26 22:18
謙芊珺
閱讀(311)
評論(0)
推薦(0)
摘要:
上文中說過,邏輯斯蒂回歸雖然稱為回歸,但它實際上是一種分類算法。認識邏輯斯蒂回歸,首先需要知道sigmoid函數(shù)。下面公式1即為sigmoid函數(shù)$$g\left( x\right) =\dfrac {1}{1+e^{ x}}$$它的函數(shù)圖像如圖所示。 1、算法介紹 和上文中的回歸算法一樣,我們有m 閱讀全文
posted @ 2017-07-26 22:17
謙芊珺
閱讀(338)
評論(0)
推薦(0)
摘要:
機器學習算法(一)線性回歸 本文主要梳理一下線性回歸和邏輯斯蒂回歸這兩大算法。這兩個算法的關(guān)系是什么呢?答案是并沒有什么關(guān)系。 這樣說其實也不對,邏輯斯蒂回歸里有線性回歸的重要組成部分。但是二者又一個本質(zhì)區(qū)別,就是線性回歸是一個“回歸”算法,而邏輯斯蒂回歸是一個“分類”算法。這就導致兩個算法永遠像牛 閱讀全文
posted @ 2017-07-26 22:10
謙芊珺
閱讀(283)
評論(0)
推薦(0)
浙公網(wǎng)安備 33010602011771號