摘要:
Scrapy框架介紹 什么是scrapy框架? Scrapy框架是封裝了很多功能并具有很強的通用性的爬蟲框架。 Scrapy框架的功能 高性能的持久化存儲 異步的數(shù)據(jù)下載 高性能的數(shù)據(jù)解析 分布式應用 Scrapy框架的基本使用 環(huán)境安裝: linux & Mac:pip install scrap
閱讀全文
摘要:
#Form組件 Form組件的作用: 對前段Form表單POST的數(shù)據(jù)進行格式效驗 常用參數(shù): is_valid():如果Form表單POST的數(shù)據(jù)都能通過,就會返回True,否則返回Flase cleared_data: 數(shù)據(jù)效驗通過就會以字典的形式存儲在里面 errors:存儲錯誤字段和信息 。
閱讀全文
摘要:
異步爬蟲 異步的由來 在我們爬取網(wǎng)站時,通常會有阻塞操作,比如:請求頁面,IO等, 如果說爬取的網(wǎng)站數(shù)量不是很多,對于阻塞的時間就不會有太大的感官性,那如果數(shù)量成百上千,甚至上萬呢? 所以需要一種方法來解決阻塞的問題,也就是采用異步的方式 異步的實現(xiàn)方式: 方式1:多線程、多進程 方式2:線程池、進
閱讀全文
摘要:
分布式爬蟲介紹 什么是分布式爬蟲? 分布式爬蟲是將多臺電腦構建成一個機群,然后將爬蟲程序部署在機群內(nèi)的每臺電腦上進行執(zhí)行爬取任務,最終將所有的數(shù)據(jù)進行 分布式爬蟲的作用 提高爬取效率 分布式爬蟲的簡單實現(xiàn) 由于原生scrapy的五大組件的不能實現(xiàn)共享,數(shù)據(jù)無法整合,所以必須通過scrapy和scra
閱讀全文
摘要:
Selenium模塊 作用 便捷的獲取頁面中動態(tài)加載的數(shù)據(jù) 便捷的模擬登錄 簡單使用 環(huán)境安裝: pip install selenium 根據(jù)瀏覽器版本下載web驅(qū)動:http://npm.taobao.org/mirrors/chromedriver (谷歌) Selenium的使用流程: #
閱讀全文
摘要:
爬蟲開篇 何為爬蟲? 爬蟲是通過編寫程序,模擬瀏覽器,對互聯(lián)網(wǎng)數(shù)據(jù)進行抓取的過程 爬蟲的應用場景 通用爬蟲 :抓取系統(tǒng)的重要組成部分,抓取的是一整張頁面數(shù)據(jù) 聚焦爬蟲 :建立在通用爬蟲的基礎上 ,抓取的是頁面中的特定的局部內(nèi)容 增量式爬蟲 :檢查網(wǎng)站中數(shù)據(jù)更新的情況,只會抓取網(wǎng)站中最新的數(shù)據(jù) 爬蟲的
閱讀全文