<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      知乎爬蟲之3:請求分析(附贈之前爬取的數據一份)

      本文由博主原創,轉載請注明出處:我的博客-知乎爬蟲之3:請求分析

      git爬蟲項目地址(關注和star在哪里~~):

      咱們上一篇所長說了爬蟲的爬取大概思路:知乎爬蟲之2:爬蟲流程設計(附贈爬出的數據庫),這一篇幅就來研究分析下模擬登陸知乎.

      ps:拿數據的好多啊~只下載不點贊,不star,藍瘦香菇

      首先來說,網上模擬登陸知乎的文章已經是多不勝數,而且模擬登陸知乎也比模擬登陸微博百度簡單很多,但是本著善始善終的原則,咱們還是重頭到尾的過上一遍.

      1.工具

      恩,工具呢,就用咱們自己平時用的瀏覽器就ok.牛逼閃閃的f12,就足夠用.然后在使用下Fiddler來查看下登陸狀態…

      2.登陸分析

      打開,點擊登陸,然后直接F12,調試出開發者工具,選擇NetWork,輸入賬號 密碼 和驗證碼,點擊登陸,發現右側出現了網絡請求.

      發現有個email的請求,請求信息為:

      請求地址:https://www.zhihu.com/login/email
      請求方式:post
      

      下面的內容先不去管它,直接拽到最下面:

      ..發現有如下信息

      _xsrf:xxxxxxxxxxxxxxxxxx
      password:xxxxx
      captcha:HDMG
      email:xxxxxx@xx.com
      

      恩,就是Post一下,看看登陸時候成功,并且抓一下登陸失敗時的錯誤信息.

      故意輸入錯誤郵箱 ,密碼

      拿到如下結果:

      1. 郵箱不存在:

      2. 密碼錯誤:

      那么登陸成功是怎么一種標識狀態呢?

      咱們這里借助下Fiddler

      打開Fiddler,再次進項知乎登陸,然后找到 這個請求.發現登陸成功后返回了一個Json串:

      恩,那么還有一個_xsrf,那么這個參數在哪里呢?

      其實_xsrf這種東西,基本都存在于頁面的源碼里,打開登陸頁面,右鍵查看查看源代碼,可發現:

      哈哈,原來在一個隱藏域里....

      哈哈,這是不是故意就讓人爬的了...過程比我想象中的簡單很多..

      但是具體行不行呢,還得上代碼試一試哈哈...

       

      ## 3.跟隨/關注分析

      直接打開,然后f12,開始分析請求.

      直接滾動頁面,發現出現異步請求,請求地址為:

      https://www.zhihu.com/api/v4/members/Sweets07/followers?per_page=10&include=data%5B%2A%5D.employments%2Ccover_url%2Callow_message%2Canswer_count%2Carticles_count%2Cfavorite_count%2Cfollower_count%2Cgender%2Cis_followed%2Cmessage_thread_token%2Cis_following%2Cbadge%5B%3F%28type%3Dbest_answerer%29%5D.topics&limit=10&offset=30
      

      可發現請求參數為:

      include:data[*].employments,cover_url,allow_message,answer_count,articles_count,favorite_count,follower_count,gender,is_followed,message_thread_token,is_following,badge[?(type=best_answerer)].topics
      
      limit:10
      
      offset:30
      

      返回的Json為:

      哇塞.里面有各種信息...

      如:

      1. 下一個請求的地址

      2. 人員信息,id啊,頭像啊,學校,公司,簽名啊,關注人數.....

      恩,其實咱們拿一部分就夠了,對,就是那個ID...有的id就可以直接打開個人頁面了..然后說這個請求有些問題,因為直接帶著cookie get會出現一個錯誤:

      {"message":"身份未經過驗證","code":100,"name":"AuthenticationException"}
      

       

      這個是因為在請求的時候多了一個頭:

      那么這個參數在哪里呢??

      找來找去,最后發現,這個參數在請求個人主頁信息的cookie里.

      跟隨者和關注者差不多.....

       

      就到這里吧,下一步開始擼代碼...

      //吾愛Java(QQ群):170936712(點擊加入)

      知乎爬蟲之2:爬蟲流程設計(附贈爬出的數據庫)

      posted @ 2017-01-05 09:33  菜狗_無知  閱讀(3102)  評論(8)    收藏  舉報
      主站蜘蛛池模板: 色av综合av综合无码网站| 国产精品自拍一二三四区| 国产精品国三级国产av| 精品乱人码一区二区二区| 久爱www人成免费网站| 欧美高清狂热视频60一70| 大陆熟妇丰满多毛xxxx| 蜜臀av在线观看| 中国CHINA体内裑精亚洲日本 | 最新亚洲av日韩av二区| 丰满人妻熟妇乱精品视频| 日韩精品无码一区二区视频| 尹人香蕉久久99天天拍| 中文字幕无码av不卡一区| 国产中文字幕在线精品| 国产精品久久久久7777按摩| 日韩av毛片福利国产福利| 国产不卡一区二区精品| 广宁县| 国产av日韩精品一区二区| 色窝窝免费播放视频在线| 亚洲最大成人免费av| 久久精品国产一区二区蜜芽| 亚洲精品人成网线在线| 久草热在线视频免费播放| 高h纯肉无码视频在线观看| 丝袜美腿诱惑之亚洲综合网| 制服丝袜美腿一区二区| 国产精品丝袜亚洲熟女| 少妇高潮激情一区二区三| 亚洲精品美女一区二区| 久热这里有精品视频播放| 四虎永久地址www成人| 日韩中文字幕高清有码| 国产午夜成人久久无码一区二区| 久久精品国产91精品亚洲| 国产精品色哟哟成人av| 美女裸体十八禁免费网站| 久久这里只有精品好国产| 好吊妞| 亚洲一区二区三区|