<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      瀏覽器收集信息原理

      對于百度來說,核心業務是搜索引擎,而對于搜索引擎抓取信息的原理,蜘蛛(爬蟲)是實現大量的爬去信息的一個程序。

      百度已經屹立中國十來年了,在不斷的技術改進中,爬蟲技術也不斷升級。大概以主動被動可以分為兩個階段。

       

      一、百度主動抓取

      1、抓取。對于更早期的百度,沒有太多信息存儲的時期,百度當然是主動出擊,先通過配置幾個大網站,然后通過這些網站的外鏈等又不斷的爬去其他網站。這階段也產生了所謂的SEO外鏈為王的口號。比如:配置新浪、搜狐等的新聞頻道,然后配置門戶的博客頻道。通過這些網站不斷的去抓取一個有一個的鏈接。

      2、分析、存儲。對于任何一個蜘蛛爬了的鏈接,會對內容進行分析,然后存儲。

       

      二、由網站主動提交規則的數據給百度

      這個階段大概也就近幾年比較多見,畢竟百度的信息儲存量已經多的爆炸,沒有必要耗費太多精力自己主動去爬蟲過多無意義的鏈接。

      百度采取提供一個標準的XML,讓網站主動把網站新生產的數據提交給百度,然后收錄。

       

      來源:https://www.zhihu.com/question/35373472

       

       

       每個SEO工作人員都要理解搜索引擎的基本原理,只有充分理解了搜索引擎的工作原理,才能讓我們更好的從根本上理解SEO技巧,通過了解搜索引擎原理,讓很多問題迎刃而解,今天51商務網(www.51987.cn)小編就跟大家講講搜索引擎(百度)的工作原理,第一爬行和抓取:

       

      搜索引擎的工作過程一般分為三個階段:

      爬行和抓取:通過搜索引擎蜘蛛跟蹤鏈接和訪問頁面,抓取內容,存入數據庫。

      預處理:搜索引擎抓取的數據,會進行文字提取,中文分詞,索引,倒排索引,方便日后排名程序調用。

      排名:用戶輸入查詢關鍵以后,排名程序會調用索引庫數據,按相關性生成搜索結果頁面。

       

      一、蜘蛛爬行和抓取是搜索引擎的第一步,收集數據的過程。

      搜索引擎是爬行和訪問頁面的自動程序收集數據,這種程序也叫蜘蛛或者機器人。搜索引擎蜘蛛訪問網站類似于我們瀏覽網站,也可以理解蜘蛛爬行就像司令部放出去的收集情報員一樣。搜索引擎蜘蛛訪問網站是和普通用戶基本一致的,蜘蛛程序訪問頁面以后,服務器會返回HTML代碼,蜘蛛程序會把代碼,出入原始頁面數據庫,搜索引擎會同時使用很多蜘蛛程序提高抓取數據的效率。搜索引擎為了提高爬行和抓取速度,都使用多個蜘蛛進行發布和爬行,情報員多了,自然信息收集的就會更多,工作效率也就更高了。蜘蛛訪問網站時,會先訪問網站的robots.txt文件,如果robots.txt文件里頭有止訪問的文件或者目錄,蜘蛛就不會抓取。其實就是入鄉隨俗,比如:回族人不吃豬肉,你雖然是客人,去了回族地域,也需要遵守當地習俗,就是這個意思。搜索引擎蜘蛛也是有自己的用戶代理名稱的,就好像警察的工作證一樣,執行公務的時候都要先把證件拿出來,蜘蛛也是一樣的,站長可以通過日志文件看到蜘蛛的用戶代理,從而識別出到底是什么網站的搜索引擎蜘蛛。

      比如:百度蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.html)

       360蜘蛛:Mozilla5.0(Windows;U;Windows NT5.1;zh-CN;)Firefox/1.5.0.11;360Spider  

      谷歌蜘蛛:Mozilla5.0(compatible;Googlebot/2.1;+http://www.google.com/bot.html)

       谷歌移動:Mozilla5.0(iPhone;CPU iPhone OS 6_0 like Mac OS X)AppleWebKit/536.26(KHTML,likeGecko)Version/6.0Mobile/10A5376e Safari/8536.25(compatible;Googlebot/2.1;+http://www.google.com/bot.html) 

      搜狗蜘蛛:Sogou+web+robot+(+http:www.sogou.com/docs/help/webmasters.html#07)

      二、跟蹤鏈接

      為了爬取更多的頁面蜘蛛,都是靠跟蹤網頁的的鏈接爬取的,從一個頁面到另一個頁面,蜘蛛從任何一個頁面出發都能爬取到網上所有的頁面,不過,網站的機構復雜,信息太多,所有蜘蛛爬行也是有一定策略的,一般是2中深度優先和廣度優先。

       

       
       

             從理論上講,只要給蜘蛛足夠的時間,就能爬完所有網絡內容。其實在實際工作過程中,帶寬和時間都不是無限的,也不可能爬完所有的頁面。最大的搜索引擎也只能爬取和收錄小部分內容。

      三、吸引蜘蛛

             由此可見,雖然蜘蛛能爬行和抓取頁面,但實際上還有很多頁面蜘蛛是沒有爬到的位置,所以我們就要想辦法去吸引蜘蛛讓蜘蛛來我這里爬取和抓取頁面。既然不能抓取所有頁面,肯定是要讓蜘蛛抓取重要的頁面。哪些頁面比較重要?有幾個方面的影響因素:

      1.  網站和頁面權重

             一般質量高,資格老的網站被認為是權重比較高,所以這種網站一般搜索的頁面會更多,蜘蛛的爬行深度也會比較高。

      2.    更新速度

             一般每次蜘蛛爬行完了,會把頁面保存起來,如果第二次來的時候頁面完全沒有變化,就說明內頁沒有更新,多次爬取對頁面更新的速度有了了解,蜘蛛就不會頻繁的抓取這個網站;相反,如果每次抓取都有新的內容,蜘蛛就會頻繁的抓取這個網站的內容,從而,這個網站的新內容也會更快的被蜘蛛跟蹤。

      3.  導入鏈接

             無論是外部鏈接還是內容鏈接,如果想要蜘蛛抓取就必須要有鏈接導出,不然蜘蛛都沒有機會知道這個頁面的存在。高質量的導入鏈接也會是頁面的上的導出鏈接的爬行深度增加。

      【導入鏈接:其他網站鏈接到我站;導出鏈接:我鏈接到其他人的網站,單向的。】

      4.   與首頁的點擊距離

             一般網站的首頁是權重最高的,也是蜘蛛訪問最頻繁的。大部分外部鏈接指向的都是首頁。所以距離首頁越近的頁面,權重也會更好,被蜘蛛爬行的幾率也會越大。

      5.   URL結構

             頁面權重一般是收錄以后進行迭代計算才是到的,那么搜索引擎蜘蛛在抓取前怎么知道這個頁面的權重呢?其實蜘蛛會進行預判,除了鏈接、與首頁距離、歷史數據等因素以外,短的,層次淺的URL可能會被會被直管的認為是是權重比較高的網站。

      四、地址庫

             為了避免重復爬行和抓取地址,搜索引擎會建立一個地址庫,記住已經被發現和沒有抓取的網址,以及已經抓取的網址,蜘蛛發現鏈接后,并不是馬上訪問,而是出入地址庫中,然后統一抓取。

      *地址庫的URL有幾個來源:

             自己錄入的種子網站,蜘蛛抓取頁面中的URL(會先和庫里的數據比對,沒有的會保存。),站長提交的網頁地址,站長通過XML網站地圖站長平臺提交的鏈接。

             一般站長提交上來的網址,會先存入地址庫,能否被收錄要看網頁內容的重要性,搜索引擎的大部分內容來與蜘蛛爬取,提交的頁面微乎其微,搜索引擎更喜歡自己爬取內容。

      五、文件存儲

             搜索引擎蜘蛛抓取的數據通統一放到原始數據庫,與頁面數據和用戶瀏覽的搜索引擎完全一樣,每一個URL都會有一個自己的編號。

      六、爬行時文章的內容重復性檢測

             檢測和刪除重復數據一般是在預處理過程中進行的,但是蜘蛛在爬行過程也會檢測數據的的重復情況,如果遇到權重低的網站出現大量轉載和抄襲的各種文章,蜘蛛就會不在繼續爬行,這也是為什么很多站長看日志蜘蛛來過,但是網頁基本不收錄的原因。



      作者:0f002a5a6427
      鏈接:https://www.jianshu.com/p/e30362ae5856
      來源:簡書
      著作權歸作者所有。商業轉載請聯系作者獲得授權,非商業轉載請注明出處。
       
       
      百度是一個搜索引擎,所有的搜索引擎在后臺都有一個抓取程序,叫做蜘蛛,也有的叫爬蟲,百度的就叫百度爬蟲,這種程序的作用就是在網絡中大量抓取網頁做成快照,然后把它們分類儲存在百度的數據庫里,我們用百度來搜索,得到的數據其實就來自于百度的數據庫。但如果你點擊搜索結果,百度又會把你引向原始網頁。
       
      來源:https://zhidao.baidu.com/question/439146904484460684.html
      posted @ 2022-08-19 17:54  記錄——去繁就簡  閱讀(337)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 邹平县| 国产精品人成在线播放蜜臀| 国产三级国产精品国产专区| 德安县| 丰满熟妇人妻中文字幕| 国产精品美女一区二区三| 国产精品久久久久aaaa| 亚洲成人av在线系列| 日韩精品 在线 国产 丝袜| 亚洲中文字幕人妻系列| 久久久久久久久久久久中文字幕 | 久久综合九色综合97欧美| 免费无遮挡无码永久在线观看视频| 亚洲精品tv久久久久久久久久| 色丁香一区二区黑人巨大| 亚洲国产成人一区二区在线| 中文字幕日韩人妻一区| 欧美日韩v| 最新国产精品拍自在线观看| 深州市| 久久精品国产精品亚洲精品| 国产欧美综合在线观看第十页| 亚洲成色精品一二三区| 不卡无码人妻一区三区音频| 一区二区福利在线视频| 国产精品久久久久aaaa| 亚洲精品福利一区二区三区蜜桃| 亚洲乱熟乱熟女一区二区| 99久久久国产精品消防器材| 香港日本三级亚洲三级| 欧洲亚洲国内老熟女超碰| 亚洲 一区二区 在线| 建水县| 亚洲欧美在线一区中文字幕| 国产午夜精品理论大片| 成人国产精品一区二区不卡| 色婷婷综合久久久中文字幕| 中文字幕亚洲综合小综合| 亚洲图片自拍偷图区| 望江县| 国产强奷在线播放免费|