| 博客班級 | https://edu.cnblogs.com/campus/fzzcxy/2018CS |
| ---- | ---- | ---- |
| 作業要求 | https://edu.cnblogs.com/campus/fzzcxy/2018CS/homework/11732 |
| 作業目標 | 爬取《在一起》的所有評論,分詞處理后制作出詞云圖 |
| 作業源代碼 | https://github.com/zoeisred/first-personal-work |
| 學號 | 211806148 |
時間記錄

步驟 具體操作 花費時間
1. 進行數據采集 編寫代碼爬取當前時間的所有評論 4h
2.數據處理 將爬取的評論jiebe分詞處理保存到comment.json文件 3h
3.數據分析 將提取出的信息制作成詞云圖 2h
4.上傳代碼 將代碼上傳到GitHub 1h
一、爬取《在一起》評論數據
在開頭爬取數據就遇到困難,之前學的爬蟲知識有一些模糊了,于是花了幾個小時去復習了正則表達和異步加載的知識,底子比較薄,花了大把時間復習鞏固。
爬取的評論
然后數據處理jieba分詞,pip install jieba 安裝庫,
二.數據可視化
下載完echarts.js和echarts-wordcloud.js之后處理完之后圖片:這塊內容是完全沒有接觸到過的,所以上手很慢,也去問了好多同學。
上傳代碼
結果

·作業感想
此次作業有兩題,第一題爬蟲就讓我覺得有難度了,分析題目查閱資料了解相關知識后開剛,這次作業還是比較難的,花費了很多時間,但現在做完想想也覺得值得,在這個過程中學到了很多的東西,也清楚自身知識儲備很不足,尤其在github的使用方面,有點小白,在今后應該更加認真的學習,學無止境。
·參考資料
https://www.liaoxuefeng.com/wiki/896043488029600