作業一
作業①
- 用requests和BeautifulSoup庫方法定向爬取給定網址(http://www.shanghairanking.cn/rankings/bcur/2020 )的數據,屏幕打印爬取的大學排名信息。


2.心得體會
有些網站實際編碼可能與聲明編碼不一致,所以用apparent_encoding自動檢測是最合適的,在對院校名稱爬取時會附帶雙一流985等,通過.split('\n')[0]只提取名稱即可。這是一個較為通用的爬取模板。
作業②
- 用requests和re庫方法設計某個商城(百聯網)商品比價定向爬蟲,爬取該商城,以關鍵詞“書包”搜索頁面的數據,爬取商品名稱和價格。


2.心得體會
發現在爬取動態加載頁面時requests和re庫沒辦法直接根據網頁爬到有效信息,所以先在終端貼出源碼,然后再根據源碼的格式寫正則表達式,爬取模板大差不差,主要的難點還是在正則表達式上。
作業③
- 爬取一個給定網頁(https://news.fzu.edu.cn/yxfd.htm)或者自選網頁的所有JPEG、JPG或PNG格式圖片文件



2.心得體會
先爬出網址路徑,然后根據路徑下載圖片保存到本地即可

浙公網安備 33010602011771號