R語言︱文本挖掘之中文分詞包——Rwordseg包(原理、功能、詳解)

筆者寄語：與前面的RsowballC分詞不同的地方在于這是一個中文的分詞包，簡單易懂，分詞是一個非常重要的步驟，可以通過一些字典，進行特定分詞。大致分析步驟如下：

數(shù)據(jù)導(dǎo)入——選擇分詞字典——分詞

但是下載步驟比較繁瑣，可參考之前的博客： R語言·文本挖掘︱Rwordseg/rJava兩包的安裝（安到吐血）

——————————————————————————————————

Rwordseg與jiebaR分詞之間的區(qū)別

中文分詞比較有名的包非`Rwordseg`和`jieba`莫屬，他們采用的算法大同小異，這里不再贅述，我主要講一講他們的另外一個小的不同：

`Rwordseg`在分詞之前會去掉文本中所有的符號，這樣就會造成原本分開的句子前后相連，本來是分開的兩個字也許連在一起就是一個詞了，

而`jieba`分詞包不會去掉任何符號，而且返回的結(jié)果里面也會有符號。

所以在小文本準確性上可能`Rwordseg`就會有“可以忽視”的誤差，但是文本挖掘都是大規(guī)模的文本處理，由此造成的差異又能掀起多大的漣漪，與其分詞后要整理去除各種符號，倒不如提前把符號去掉了，所以我們才選擇了`Rwordseg`。

來看一下這篇論文一些中文分詞工具的性能比較《開源中文分詞器的比較研究_黃翼彪，2013》

8款中文分詞器的綜合性能排名：
Paoding（準確率、分詞速度、新詞識別等，最棒）
mmseg4j（切分速度、準確率較高）
IKAnalyzer
Imdict-chinese-analyzer
Ansj
盤古分詞
Httpcws
jieba

——————————————————————————————————

Rwordseg分詞原理以及功能詳情

Rwordseg 是一個R環(huán)境下的中文分詞工具，使用 rJava 調(diào)用 Java 分詞工具 Ansj。

Ansj 也是一個開源的 Java 中文分詞工具，基于中科院的 ictclas 中文分詞算法，采用隱馬爾科夫模型（Hidden Markov Model, HMM）。作者孫健重寫了一個Java版本，并且全部開源，使得 Ansi 可用于人名識別、地名識別、組織機構(gòu)名識別、多級詞性標注、關(guān)鍵詞提取、指紋提取等領(lǐng)域，支持行業(yè)詞典、用戶自定義詞典。

1、分詞原理

n-Gram+CRF+HMM的中文分詞的java實現(xiàn).

分詞速度達到每秒鐘大約200萬字左右（mac air下測試），準確率能達到96%以上

目前實現(xiàn)了.中文分詞. 中文姓名識別 . 用戶自定義詞典,關(guān)鍵字提取，自動摘要，關(guān)鍵字標記等功能

可以應(yīng)用到自然語言處理等方面,適用于對分詞效果要求高的各種項目.

（官方說明文檔來源：http://pan.baidu.com/s/1sj5Edjf）

該算法實現(xiàn)分詞有以下幾個步驟：

1、全切分，原子切分；

2、 N最短路徑的粗切分，根據(jù)隱馬爾科夫模型和viterbi算法，達到最優(yōu)路徑的規(guī)劃；

3、人名識別；

4、系統(tǒng)詞典補充；
5、用戶自定義詞典的補充；
6、詞性標注（可選）

2、Ansj分詞的準確率

這是我采用人民日報1998年1月語料庫的一個測試結(jié)果，首先要說明的是這份人工標注的語料庫本身就有錯誤。

P（準確率）：0.984887218571267
R（召回率）：0.9626488103178712
F（綜合指標F值）：0.9736410471396494

3、歧義詞、未登錄詞的表現(xiàn)
歧異方面的處理方式自我感覺還可以，基于“最佳實踐規(guī)則+統(tǒng)計”的方式，雖然還有一部分歧異無法識別，但是已經(jīng)完全能滿足工程應(yīng)用了。

至于未登錄詞的識別，目前重點做了中文人名的識別，效果還算滿意，識別方式用的“字體+前后監(jiān)督”的方式，也算是目前我所知道的效果最好的一種識別方式了。

4、算法效率
在我的測試中，Ansj的效率已經(jīng)遠超ictclas的其他開源實現(xiàn)版本。

核心詞典利用雙數(shù)組規(guī)劃，每秒鐘能達到千萬級別的粗分。在我的MacBookAir上面，分詞速度大約在300w/字/秒，在酷睿i5+4G內(nèi)存組裝機器上，更是達到了400w+/字/秒的速度。

參考文獻：
Rwordseg說明：http://jianl.org/cn/R/Rwordseg.html

ansj中文分詞github：https://github.com/NLPchina/ansj_seg

ansj中文分詞作者專訪:http://blog.csdn.net/blogdevteam/article/details/8148451

——————————————————————————————————

一、數(shù)據(jù)導(dǎo)入、函數(shù)測試

本次使用代碼與案例是基于北門吹風(fēng)博客而來。

#導(dǎo)入rJava 和Rwordseg

library(rJava)
library(Rwordseg)

#測試rJava 和Rwordseg是否安裝好
teststring1 <- "我愛R語言，我愛文本挖掘"
segmentCN(teststring1) ##Rwordseg中的函數(shù)，中文分詞

#觀察分詞1000次花的時間
system.time(for(i in 1:1000) segmentCN(teststring1))
#segmentCN的詳細解釋
?segmentCN

二、分詞詞典的使用

筆者認為選擇分詞詞典對于后續(xù)的分析極為重要，詞典庫是之后分詞的匹配庫，這個詞庫越強大，分詞的效果就越好。網(wǎng)上大多使用的是搜狗分詞包。

1、從搜狗詞庫下載分詞詞典
##用搜狗詞庫的時候一定要在官網(wǎng)上下載 ~.scel 文件，
##搜狗下載官網(wǎng)：http://pinyin.sogou.com/dict/cate/index/101
#不能直接將下載的 ~.txt改為~.scel
installDict("F:/R/文本挖掘分詞詞庫/自然語言處理及計算語言學(xué)相關(guān)術(shù)語.scel","computer",dicttype = "scel")

2、查看詞典的函數(shù)
加載詞典函數(shù)為installDict，下面有一些簡單的介紹，其中的詞類名稱是自定義的，每個詞類名稱需要不一樣。

#查看詞典
#installDict函數(shù)介紹
# installDict(dictpath, dictname,dicttype = c("text", "scel"), load = TRUE)
#installDict("工作目錄","詞類名稱",dicttype = c("text", "scel"), load = TRUE)
listDict()
#uninstallDict() 刪除安裝的詞典
uninstallDict()
#listDict() 查看剩余的詞典
listDict()

deleteWords( )刪詞

分別有查看、安裝、刪除的函數(shù)。

3、自定義詞典

可以自己設(shè)定哪些關(guān)鍵詞需要額外注意區(qū)分開來，也可以刪除已經(jīng)加入詞庫的一些關(guān)鍵詞，

對于一些專業(yè)領(lǐng)域，專業(yè)名詞較多的案例，很推薦。

#自定義詞典
#手動添加或刪除詞匯，僅僅只在內(nèi)存中臨時添加，未記錄下來
segmentCN("畫角聲斷譙門")
insertWords("譙門") #讓某詞組放入內(nèi)存
segmentCN("畫角聲斷譙門")

deleteWords(c("譙門","畫角")) #刪除某詞組
segmentCN("畫角聲斷譙門")

#使用save參數(shù)，把操作記錄下來，下回啟動能直接用
insertWords(c("譙門","畫角"),save=TRUE)
segmentCN("畫角聲斷譙門")

三、分詞
1、Rwordseg分詞包核心函數(shù)segmentCN

Rwordseg分詞包主要函數(shù)是segmentCN，這個函數(shù)是核心，筆者詳解一下這個函數(shù)，代碼如下：

#segmentCN函數(shù)解釋
segmentCN(strwords,
analyzer = get("Analyzer", envir = .RwordsegEnv),
nature = FALSE, nosymbol = TRUE,
returnType = c("vector", "tm"), isfast = FALSE,
outfile = "", blocklines = 1000)

#strwords：中文句子
#analyzer：分析的java對象
#nature：是否識別詞組的詞性（動詞、形容詞）
#nosymbol:是否保留句子符號
#returnType：默認是一個字符串，也可以保存成其他的樣式，比如tm格式，以供tm包分析
#isfast：“否”代表劃分成一個個字符，“是”代表保留句子，只是斷句
#outfile：如果輸入是一個文件，文件的路徑是啥
#blocklines：一行的最大讀入字符數(shù)

分詞時候的原則是，如果該詞是默認詞典里面的，那么優(yōu)先分詞出來。那么你insert以及詞典加入的詞語，都不會被分出來，而且按照默認詞典分。

如何有一個新詞，容易被拆開了分，那么怎么辦？

目前還沒有特別棒的方法，不過你在insert時候，可以把出現(xiàn)頻次提高，這樣好像可以提高優(yōu)先級。

至于Rwordseg默認詞典，在哪呢？

2、關(guān)于人名的分詞

#參數(shù)isNameRecognition 可用來人的名字識別，
getOption("isNameRecognition") #默認是不進行人名識別,輸出false
segmentCN("梅超風(fēng)不是是桃花島島主")
segment.options(isNameRecognition = TRUE)
getOption("isNameRecognition")
segmentCN("梅超風(fēng)是桃花島島主")

除了人名之外，rwordseg還有兩類識別：

2、數(shù)字識別（isNumRecognition ，默認為TRUE，默認識別數(shù)字）；

3、量詞識別（isQuantifierRecognition，默認為TRUE，默認識別量詞）。

————————————————————

延伸一：python中的模塊——pynlpir
import pynlpir
pynlpir.open()
s = '歡迎科研人員、技術(shù)工程師、企事業(yè)單位與個人參與NLPIR平臺的建設(shè)工作。'
pynlpir.segment(s)
[('歡迎', 'verb'), ('科研', 'noun'), ('人員', 'noun'), ('、', 'punctuation mark'), ('技術(shù)', 'noun'), ('工程師', 'noun'), ('、', 'punctuation mark'), ('企事業(yè)', 'noun'), ('單位', 'noun'), ('與', 'conjunction'), ('個人', 'noun'), ('參與', 'verb'), ('NLPIR', 'noun'), ('平臺', 'noun'), ('的', 'particle'), ('建設(shè)', 'verb'), ('工作', 'verb'), ('。', 'punctuation mark')]

posted @ 2021-12-20 13:45 MRO物料采購服務(wù) 閱讀(1014) 評論(0) 收藏舉報

刷新頁面返回頂部

非生產(chǎn)、非核心、輔料（MRO）一站式采購服務(wù)

讓您的采購更省時、更省力、更省心、更省錢

R語言︱文本挖掘之中文分詞包——Rwordseg包(原理、功能、詳解)

公告