Scrapy 框架 - 簡介

Scrapy 框架

介紹

Scrapy一個開源和協作的框架，其最初是為了頁面抓取 (更確切來說, 網絡抓取 )所設計的，使用它可以以快速、簡單、可擴展的方式從網站中提取所需的數據。但目前Scrapy的用途十分廣泛，可用于如數據挖掘、監測和自動化測試等領域，也可以應用在獲取API所返回的數據(例如 Amazon Associates Web Services ) 或者通用的網絡爬蟲。

Scrapy 是基于twisted框架開發而來，twisted是一個流行的事件驅動的python網絡框架。因此Scrapy使用了一種非阻塞（又名異步）的代碼來實現并發。

框架架構

整體架構大致如下

框架流程解析

1、spiders產生request請求，將請求交給引擎
2、引擎(EGINE)吧剛剛處理好的請求交給了調度器，以一個隊列或者堆棧的形式吧這些請求保存起來，調度一個出來再傳給引擎
3、調度器(SCHEDULER)返回給引擎一個要爬取的url
4、引擎把調度好的請求發送給download，通過中間件發送（這個中間件至少有兩個方法，一個請求的，一個返回的)，
5、一旦完成下載就返回一個response，通過下載器中間件,返回給引擎，引擎把response 對象傳給下載器中間件，最后到達引擎
6、引擎從下載器中收到response對象，從下載器中間件傳給了spiders（spiders里面做兩件事，1、產生request請求，2、為request請求綁定一個回調函數），spiders只負責解析爬取的任務。不做存儲，
7、解析完成之后返回一個解析之后的結果items對象及(跟進的)新的Request給引擎，就被ITEM PIPELUMES處理了
8、引擎將(Spider返回的)爬取到的Item給Item Pipeline，存入數據庫，持久化,如果數據不對，可重新封裝成一個request請求，傳給調度器
9、(從第二步)重復直到調度器中沒有更多地request，引擎關閉該網站

核心組件

引擎

引擎負責控制系統所有組件之間的數據流，并在某些動作發生時觸發事件。

調度器

用來接受引擎發過來的請求, 壓入隊列中, 并在引擎再次請求的時候返回.

可以想像成一個URL的優先級隊列, 由它來決定下一個要抓取的網址是什么, 同時去除重復的網址

下載器

用于下載網頁內容, 并將網頁內容返回給引擎

下載器是建立在 twisted 這個高效的異步模型上的

爬蟲

SPIDERS是開發人員自定義的類，用來解析responses，并且提取items，或者發送新的請求

項目管道(ITEM PIPLINES)

在items被提取后負責處理它們

主要包括清理、驗證、持久化（比如存到數據庫）等操作

下載器中間件

下載器中間件是在引擎及下載器之間的特定鉤子(specific hook)，處理Downloader傳遞給引擎的response。

其提供了一個簡便的機制，通過插入自定義代碼來擴展Scrapy功能。

更多內容請看下載器中間件(Downloader Middleware) 。

爬蟲中間件

Spider中間件是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。

其提供了一個簡便的機制，通過插入自定義代碼來擴展Scrapy功能。

更多內容請看 Spider中間件(Middleware) 。

下載安裝

#Windows平臺
    1、pip3 install wheel #安裝后，便支持通過wheel文件安裝軟件，wheel文件官網：https://www.lfd.uci.edu/~gohlke/pythonlibs
    3、pip3 install lxml
    4、pip3 install pyopenssl
    5、下載并安裝pywin32：https://sourceforge.net/projects/pywin32/files/pywin32/
    6、下載twisted的wheel文件：http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
    7、執行pip3 install 下載目錄\Twisted-17.9.0-cp36-cp36m-win_amd64.whl
    8、pip3 install scrapy
  
#Linux平臺
    1、pip3 install scrapy

關于下載中的報錯問題請看這里

命令行工具

#1 查看幫助
    scrapy -h
    scrapy <command> -h

#2 有兩種命令：其中Project-only必須切到項目文件夾下才能執行，而Global的命令則不需要
    Global commands:
        startproject #創建項目
        genspider    #創建爬蟲程序
        settings     #如果是在項目目錄下，則得到的是該項目的配置
        runspider    #運行一個獨立的python文件，不必創建項目
        shell        #scrapy shell url地址  在交互式調試，如選擇器規則正確與否
        fetch        #獨立于程單純地爬取一個頁面，可以拿到請求頭
        view         #下載完畢后直接彈出瀏覽器，以此可以分辨出哪些數據是ajax請求
        version      #scrapy version 查看scrapy的版本，scrapy version -v查看scrapy依賴庫的版本
    Project-only commands:
        crawl        #運行爬蟲，必須創建項目才行，確保配置文件中ROBOTSTXT_OBEY = False
        check        #檢測項目中有無語法錯誤
        list         #列出項目中所包含的爬蟲名
        edit         #編輯器，一般不用
        parse        #scrapy parse url地址 --callback 回調函數  #以此可以驗證我們的回調函數是否正確
        bench        #scrapy bentch壓力測試

#3 官網鏈接
    https://docs.scrapy.org/en/latest/topics/commands.html

全局命令：所有文件夾都使用的命令,可以不依賴與項目文件也可以執行
項目的文件夾下執行的命令
1、scrapy startproject Myproject #創建項目
   cd Myproject

2、scrapy genspider baidu www.baidu.com  #創建爬蟲程序，baidu是爬蟲名,定位爬蟲的名字
#寫完域名以后默認會有一個url,

3、scrapy settings --get BOT_NAME  #獲取配置文件

#全局：4、scrapy runspider budui.py

5、scrapy runspider AMAZON\spiders\amazon.py  #執行爬蟲程序
   在項目下：scrapy crawl amazon  #指定爬蟲名，定位爬蟲程序來運行程序
    #robots.txt 反爬協議：在目標站點建一個文件，里面規定了哪些能爬，哪些不能爬
    # 有的國家覺得是合法的，有的是不合法的，這就產生了反爬協議
    # 默認是ROBOTSTXT_OBEY = True
    # 修改為ROBOTSTXT_OBEY = False  #默認不遵循反扒協議

6、scrapy shell https://www.baidu.com  #直接超目標站點發請求
     response
     response.status
     response.body
     view(response)

7、scrapy view https://www.taobao.com #如果頁面顯示內容不全，不全的內容則是ajax請求實現的，以此快速定位問題

8、scrapy version  #查看版本

9、scrapy version -v #查看scrapy依賴庫鎖依賴的版本

10、scrapy fetch --nolog http://www.logou.com    #獲取響應的內容

11、scrapy fetch --nolog --headers http://www.logou.com  #獲取響應的請求頭
    (venv3_spider) E:\twisted\scrapy框架\AMAZON>scrapy fetch --nolog --headers http://www.logou.com
    > Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
    > Accept-Language: en
    > User-Agent: Scrapy/1.5.0 (+https://scrapy.org)
    > Accept-Encoding: gzip,deflate
    >
    < Content-Type: text/html; charset=UTF-8
    < Date: Tue, 23 Jan 2018 15:51:32 GMT
    < Server: Apache
    >代表請求
    <代表返回

10、scrapy shell http://www.logou.com #直接朝目標站點發請求

11、scrapy check  #檢測爬蟲有沒有錯誤

12、scrapy list  #所有的爬蟲名

13、scrapy parse http://quotes.toscrape.com/ --callback parse #驗證回調函函數是否成功執行

14、scrapy bench #壓力測試

創建項目以及啟動爬蟲

scrapy startproject xx 
cd xx 
scrapy genspider chouti chouti.com 

scrapy crawl chouti --nolog

默認只能在cmd中執行爬蟲，如果想在pycharm中執行需要如下操作

#在項目目錄下新建：entrypoint.py
from scrapy.cmdline import execute
# execute(['scrapy', 'crawl', 'amazon','--nolog'])  # 不要日志打印
# execute('scrapy crawl amazon'.split())  # 需要列表的形式, 也可以字符串切割為列表傳入 

# 多個參數的傳遞也是一個一個傳即可
# "acrapy crawl amzaon -a keyword=iphone8"
execute(['scrapy', 'crawl', 'amazon1','-a','keyword=iphone8','--nolog'])  

# execute(['scrapy', 'crawl', 'amazon1'])

記得設置編碼格式在 windows 環境下

import sys,os 
sys.stdout=io.TextIOWrapper(sys.stdout.buffer,encoding='gb18030')

項目結構

project_name/
   scrapy.cfg
   project_name/
       __init__.py
       items.py
       pipelines.py
       settings.py
       spiders/
           __init__.py
           爬蟲1.py
           爬蟲2.py
           爬蟲3.py

posted @ 2019-02-09 05:32 羊駝之歌閱讀(744) 評論(0) 收藏舉報

刷新頁面返回頂部

坨之歌

The Bird of the Termes is my name, eating my wings to make me tame. v: zxyt745206110