<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      知乎爬蟲(chóng)之2:爬蟲(chóng)流程設(shè)計(jì)(附贈(zèng)爬出的數(shù)據(jù)庫(kù))

      本文由博主原創(chuàng),轉(zhuǎn)載請(qǐng)注明出處:我的博客-知乎爬蟲(chóng)之爬蟲(chóng)流程設(shè)計(jì)

      git爬蟲(chóng)項(xiàng)目地址(關(guān)注和star在哪里~~):

      (Ps:這個(gè)思路有問(wèn)題,實(shí)際上并不是這么搞得代碼,后續(xù)補(bǔ)上)
      說(shuō)到爬蟲(chóng),其實(shí)寫起來(lái)很簡(jiǎn)單,爬蟲(chóng)無(wú)非就是將自己想要的內(nèi)容在頁(yè)面上抽離出來(lái),并且存儲(chǔ)。這個(gè)過(guò)程在今天已經(jīng)變得非常輕松,在Java下有Jsoup,Python下有BS4,還有通吃的正則等等,然而真正難的卻是在于偽造請(qǐng)求,截獲分析請(qǐng)求參數(shù),獲取正確的頁(yè)面.
      首先來(lái)說(shuō),一個(gè)能混得過(guò)去的爬蟲(chóng),應(yīng)該有一個(gè)優(yōu)秀的流程,在明確自己的目標(biāo)后,應(yīng)該立馬去設(shè)計(jì)爬蟲(chóng)工作流程,而不是去無(wú)腦的Coding。

      那么今天咱們就先研究下咱們這個(gè)爬蟲(chóng)的目標(biāo)和流程。
      首先咱們是要獲取知乎頁(yè)面上的個(gè)人信息,關(guān)注和被關(guān)注信息,首先咱們會(huì)遇到第一個(gè)問(wèn)題就是登陸,咱們這里暫且不講,
      其次咱們就是要給定一個(gè)初始化url,然后進(jìn)行followers的和followees的獲取,然后循環(huán)爬起來(lái),那么其中一定會(huì)遇到數(shù)據(jù)重復(fù)和人物關(guān)系建立的問(wèn)題。

      1.過(guò)濾重復(fù)數(shù)據(jù)

      這個(gè)相對(duì)而言比較簡(jiǎn)單,有幾種常規(guī)方法:

      1. 數(shù)據(jù)庫(kù)設(shè)置主鍵,鎖定人物ID
      2. 存入數(shù)據(jù)時(shí)查詢數(shù)據(jù)庫(kù)數(shù)據(jù)
      3. 使用緩存隊(duì)列,在緩存中查找數(shù)據(jù)判斷
      

      首先來(lái)說(shuō)第一種,數(shù)據(jù)庫(kù)設(shè)置主鍵,鎖定人物ID,這個(gè)方法可以使數(shù)據(jù)永遠(yuǎn)不重復(fù),但是也會(huì)造成批量插入的時(shí)候造成出錯(cuò)
      第二種方法,存入數(shù)據(jù)時(shí)查詢數(shù)據(jù)庫(kù)數(shù)據(jù),可行,但是多次訪問(wèn)數(shù)據(jù)庫(kù),造成效率低下
      第三種方法,使用緩存隊(duì)列,在緩存中查找數(shù)據(jù)判斷,這種方法很好,而且速度相對(duì)較快,但是緩存太多容易出現(xiàn)OOM問(wèn)題

      在這里咱們不選擇某一種方案,而是采用主鍵+優(yōu)先緩存+數(shù)據(jù)庫(kù)查詢方式,后期自己實(shí)現(xiàn)一個(gè)LRU緩存隊(duì)列,提供命中率

      2. 爬取時(shí)創(chuàng)建人物關(guān)系

      這個(gè)問(wèn)題思考了很久,也比較惡心,在人物不確定的情況下進(jìn)行人物的獲取和關(guān)系的創(chuàng)建,怎么處理好呢。我的想法是讓每一個(gè)人員信息攜帶一個(gè)上級(jí)信息,來(lái)判斷是否能夠構(gòu)建人物關(guān)系,有點(diǎn)類似于尾遞歸的思想。

      3. 繪制流程圖

      那么對(duì)于咱們的一個(gè)整體流程目前就有了(挑戰(zhàn)一下,還是放棄了、哈哈):

      獲取URL-->解析頁(yè)面<--------
                  |            |
                  |            |
               是否存在         |
                  /\           |
                 /  \          |
              更新   攜帶       |
              數(shù)據(jù)   信息       |
                     /\        |
                    /  \       |
                  跟隨  關(guān)注    |
                  信息  信息----
      

      獲取URL–》解析—》判斷—》更新/攜帶信息?—》分析跟隨者/根系關(guān)注者–》解析頁(yè)面
      最終畫出真正的流程圖

      //吾愛(ài)Java(QQ群):170936712(點(diǎn)擊加入)

       

       

       

       

       

       

       

       

       

       

      posted @ 2017-01-04 20:41  菜狗_無(wú)知  閱讀(3612)  評(píng)論(7)    收藏  舉報(bào)
      主站蜘蛛池模板: 国产精品亚洲аv无码播放| 久章草在线毛片视频播放| 日韩 欧美 亚洲 一区二区| 爱性久久久久久久久| 少妇激情一区二区三区视频| 亚洲最大的熟女水蜜桃AV网站| 亚洲va久久久噜噜噜久久狠狠| 国产精品视频第一第二区| 国产成人一区二区三区在线观看| 亚洲第一成人网站| 亚洲欧美日韩高清一区二区三区| 少妇伦子伦情品无吗| 拉萨市| 亚洲精品色哟哟一区二区| 377P欧洲日本亚洲大胆| 亚洲日本高清一区二区三区| 亚洲人成自拍网站在线观看| 野花在线观看免费观看高清| 欧美在线观看www| 亚洲成在人线在线播放无码| 国产不卡精品一区二区三区 | 四虎成人在线观看免费| 性一交一黄一片| 亚洲精品一区二区三区综合| 深夜视频国产在线观看| 亚洲欧洲日产国码AV天堂偷窥| 丰满的少妇一区二区三区| 国产亚洲欧洲AⅤ综合一区| 人妻出轨av中文字幕| 安丘市| 欧美成本人视频免费播放| 日韩有码中文字幕国产| 加勒比精品一区二区三区 | 香港特级三A毛片免费观看| 最新国产精品拍自在线观看| 浙江省| 蜜臀av无码一区二区三区| 免费观看日本污污ww网站69| 亚洲国产成人字幕久久| 亚洲中文无码手机永久| 久操资源站|