<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      32-劉振威

      導航

      一個完整的大作業(yè)

      1.選一個自己感興趣的主題。

      2.網(wǎng)絡上爬取相關的數(shù)據(jù)。

      3.進行文本分析,生成詞云。

      4.對文本分析結(jié)果解釋說明。

      5.寫一篇完整的博客,附上源代碼、數(shù)據(jù)爬取及分析結(jié)果,形成一個可展示的成果。

      1、選一個自己感興趣的主題

         我這里選擇的主題是豆瓣讀書上《二手時間》的短評,爬取的網(wǎng)站是:https://book.douban.com/subject/26704403/comments/

       

      2、獲取網(wǎng)頁上的短評,并生成文件subjects.txt 代碼如下:

       

       

      from os import path
      import requests
      from scipy.misc import imread
      from wordcloud import WordCloud
      from bs4 import BeautifulSoup
      
      def fetch_douban_comments():
          r = requests.get('https://book.douban.com/subject/26704403/comments/')
          soup = BeautifulSoup(r.text, 'lxml')
          pattern = soup.find_all('p', 'comment-content')
          with open('subjects.txt', 'w', encoding='utf-8') as f:
              for s in pattern:
                  f.write(s.string)
      

       效果如下圖:

       

      3、對文本進行分析,并生成詞云代碼如下:

      def extract_words():
          with open('subjects.txt','r',encoding='utf-8') as f:
              comment_subjects = f.readlines()
              
          stop_words = set(line.strip() for line in open('stopwords.txt', encoding='utf-8'))
          
          commentlist = []
          for subject in comment_subjects:
              if subject.isspace():continue 
              word_list = pseg.cut(subject)#分詞
              for word, flag in word_list:
                  if not word in stop_words and flag == 'n':#名詞
                      commentlist.append(word)
                      
      

        

      生成詞云:

       d = path.dirname(__file__)
          mask_image = imread(path.join(d, "apple.jpg"))
          content = ' '.join(commentlist)
          wordcloud = WordCloud(font_path='simhei.ttf', background_color="white",  mask=mask_image, max_words=60).generate(content)
          # Display the generated image:
          plt.imshow(wordcloud)
          plt.axis("off")
          wordcloud.to_file('wordcloud.jpg')
          plt.show()
      if __name__ == "__main__":
          fetch_douban_comments()
          extract_words()
      

        生成的詞云圖為:

       

       

       

       

      posted on 2017-11-02 16:44  32-劉振威  閱讀(441)  評論(0)    收藏  舉報

      主站蜘蛛池模板: 夜夜添狠狠添高潮出水| 亚洲欧洲日韩精品在线| 欧美人成在线播放网站免费| 国产成人综合久久亚洲av| 国产亚洲综合一区二区三区| 久久天天躁夜夜躁狠狠85| 狠狠躁夜夜躁人人爽天天5| 99精品高清在线播放| 在线看免费无码的av天堂| 亚洲欧美成人久久综合中文网| 亚洲香蕉网久久综合影视 | 亚洲精品日韩中文字幕| jizz视频在线观看| 天干天干天啪啪夜爽爽99| 亚洲国产精品高清线久久| 中文字幕精品人妻丝袜| 邻居少妇张开腿让我爽了一夜| 欧美色丁香| 九九热视频精选在线播放| 2020国产欧洲精品网站| 人妻伦理在线一二三区| 动漫av网站免费观看| 亚洲av成人免费在线| 老色鬼在线精品视频| 久久久久青草线蕉亚洲| 国产欧美日韩另类精彩视频 | 日韩中文字幕在线不卡一区| 亚洲一区二区精品偷拍| 国产中文一区卡二区不卡| 成人一区二区不卡国产| 国产999久久高清免费观看| av偷拍亚洲一区二区三区| 99re在线视频观看| 77se77亚洲欧美在线| 男人扒女人添高潮视频| 久色伊人激情文学你懂的| 国产免费高清69式视频在线观看 | 国产线播放免费人成视频播放| 亚洲免费一区二区av| 亚洲男人av香蕉爽爽爽爽| 人人妻人人澡人人爽人人精品av|