<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      R語言文本挖掘1——詞云制作,基于Rwordseg包

      折騰好Rwordseg在R語言3.2版本的安裝后,馬上就來嘗鮮了,在參考牛人的意見后,成果如下圖,馬上有實戰的感覺了:

       

      首先講一下詞云的步驟:

      1.讀取文檔,這個文檔可以是網絡數據,也可以是文本文檔,對于網絡數據,有很多爬蟲方法,如RCurl包,Rweibo包等等等等,還可以自己去申請一些開放數據庫的API,在此不贅述。文本文檔讀取也簡單,直接用readLines函數讀取。

      2.識別前的準備,調入詞典,開啟人名識別,這步很重要,因為不同的文本有不同的關鍵詞特征,沒有對應的詞典,就容易把關鍵詞再次分詞導致無法提取特征,Rwordseg支持搜狗的scel字典,很nice。不過這步跟第一步并沒有優先性上的差異,個人喜好把這步放這里而已。

      3.進行分詞,一般都會調用nosymbol = T的參數

      4.制作詞語過濾,比如常見的停止詞,還有一些自定義的規則,這個就看大家自己選擇了。

      5.過濾了停止詞后,對分詞結果進行詞頻統計并排序

      6.將排序結果分別提取為詞名和頻率

      7.繪制詞云

       

      具體代碼如下,數據來源是隨便找的一篇關于如何當獵頭的百度知道,保存為txt:

      library(Rwordseg)
      library(wordcloud)

      //讀取文件
      txt <- readLines("path")

      //分詞前準備
      installDict("../dict/default.dic", "default") //默認的包
      installDict("path", "dictname") //你自己下載或制作的字典
      segment.options(isNameRecognition = TRUE)

      //分詞
      txtseg <- segmentCN(txt, nosymbol = T)

      //制作filter并過濾,這里可以加入自己制作的停止詞詞典
      filter <- function(txt) {
      txt <- gsub("[a-z]|\\.", "", txt)
      txt <- gsub("\\d+號", "", txt)
      txt <- gsub("\\d+", "", txt)
      txt <- gsub("\\/", "", txt)
      txt <- gsub("單元|對面|附近|路口|旁邊|大道|方向|先生|女士|回復|需要|處理|投訴|資料|保密", "", words)
      txt[nchar(txt) >= 2]
      }

      txtsf <- lapply(txtseg, filter)

      //詞頻統計和排序
      txtwc <- unlist(lapply(txtsf, length)) //詞頻計數
      txtws <- sort(table(txtwc),decreasing = T) //排序

      //提取詞名和詞頻
      txtws.name <- names(txtws)
      txtws.freq <- txtws

      //繪制詞云
      windows()
      par(mar = c(0, 0, 3, 0), bg = "white")
      wordcloud(sb.tel.w2.name,
      sb.tel.w2.freq,
      scale = c(5, 1),
      min.freq = 1,
      max.words = 100,
      colors = c("#BEC0C2", "#049FF1", "#DA891E", "#3F813F", "#712704", "#A2B700"))

       

      看起來簡單的詞云,其實做起來一點不簡單,數據分析還要對業務了解,上邊的詞云還有很大改進的地方,不過一步步來,等我慢慢掌握了分析方法再繼續改進咯。
      ————————————————
      版權聲明:本文為CSDN博主「wangzfox」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處鏈接及本聲明。
      原文鏈接:https://blog.csdn.net/wangzfox/article/details/45803863

      posted @ 2021-12-18 13:49  MRO物料采購服務  閱讀(743)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 无码抽搐高潮喷水流白浆| 国产短视频一区二区三区| 国产卡一卡二卡三免费入口| 国产欧美日韩另类精彩视频| 中文字幕在线国产精品| 人妻在线无码一区二区三区| 亚洲国产精品自在拍在线播放蜜臀| 国产成人精品一区二三区在线观看 | 亚洲成在人线AV品善网好看| 国产suv精品一区二区| 精品国产一区二区三区国产区| 亚洲av乱码久久亚洲精品| 久久精品国产久精国产果冻传媒| 国产精品日日摸夜夜添夜夜添2021| 久久精品免视看国产成人| 男女男免费视频网站国产 | 国产色无码专区在线观看| 国产精品一线二线三线区| 亚洲国产综合精品 在线 一区| 成人午夜av在线播放| 亚洲精品乱码久久久久久中文字幕 | 2021国产精品视频网站| 久久久无码一区二区三区| 999精品色在线播放| 中文字幕久久人妻熟人妻| 亚洲AV无码不卡在线播放| 午夜福利偷拍国语对白| 色一伦一情一区二区三区| 午夜免费福利小电影| 成人国产av精品免费网| 久女女热精品视频在线观看| 欧美巨大巨粗黑人性aaaaaa| 色呦呦九九七七国产精品| 永久免费av网站可以直接看的| 久久精品亚洲精品国产色婷| 尤物国产精品福利在线网| 亚洲精品麻豆一二三区| 日韩成人无码影院| 久久丫精品久久丫| 国产美女精品自在线拍免费| 永仁县|