<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      python爬蟲基礎

      Python 爬蟲

      bs4 網頁解析,獲取數據

      1. Tag: 標簽及其內容 任何存在于HTML語法中的標簽都可以用soup.訪問獲得
        當HTML文檔中存在多個相同對應內容時,soup.返回第一個

        for sibling in soup.a.next_sibling:
        print(sibling) 遍歷后續節點
        for sibling in soup.a.previous_sibling:
        print(sibling) 遍歷前續節點

      2. NavigableString: 標簽里的內容-字符串

      3. BeautifulSoup:整篇文章

      4. Comment: 一種特殊的NavigableString,輸出的內容不包含注釋符號

      文檔的搜索

      • find_all() 字符串過濾 可跟函數方法 或者參數(可以使列表) limit 限制獲取數量

        t_list=bs.findAll("a") 
        
      • search() 主要是用正則表達式驗證

        t_list=bs.findAll(re.compile("\d") ) #包含數字	
        
      • CSS選擇器

        1. bs.select('title') 通過標簽查找
        2. bs.select('.mnav') 通過類名查找
        3. bs.select('#u1') 通過id查找
        4. bs.select('a[class='bri]') 通過屬性查找
        5. bs.select('head>title') 通過子標簽查找
        6. bs.select('.manv~.bri') 通過兄弟標簽查找

      re 正則表達式,進行文字匹配

      • search() 主要是用正則表達式驗證
        1. re.findall("正則表達式","待匹配字符串")
        2. re.sub("a","b","aacbs"):將字符串中的b替換為a

      ?

      urllib.request urllib.error 指定URL獲取網頁數據

      import urllib.request
      # get請求
      response=urllib.request.urlopen("http://www.baidu.com")
      print(response.read().decode("utf-8"))
      

      ? httpbin.org 請求測試

      ? urllib.parse 解析器

      import urllib.request
      import urllib.parse
      #post請求
      data=bytes(urllib.parse.urlencode({"hello":"world"}),encoding="utf-8")
      response=urllib.request.urlopen("http://httpbin.org/post",data=data)
      print(response.read().decode("utf-8"))
      

      ? 可以在urlopen()中加入timeout=時間 設置超時時間 從而進行超時處理

      response.status返回的狀態

      response.getheaders() 獲得頭文件內容

      response.getheaders("Server") 獲得Server的值

      #爬蟲偽裝 主要偽裝瀏覽器標識
      req=urllib.request.Request(url=url,data=data,headers=headers,method=post)
      
      import urllib.request
      import urllib.parse
      
      
      url="https://movie.douban.com/"
      headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36 Edg/95.0.1020.53"}
      req=urllib.request.Request(url=url,headers=headers)
      response=urllib.request.urlopen(req)
      print(response.read().decode("utf-8"))
      

      ?

      xlwt 進行Excel操作

      sqlte3 進行SQLite數據庫操作

      1. 爬取網頁
      2. 解析數據
      3. 保存數據

      cv2匹配滑塊驗證碼

      嗷嗚

      posted @ 2021-12-29 17:50  菜菜蕪湖起飛  閱讀(46)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 日韩无矿砖一线二线卡乱| 国产精品久久久久aaaa| 国产午夜精品福利免费看| 一区二区三区自拍偷拍视频| 亚洲国产午夜精品理论片| 成人3D动漫一区二区三区| 亚洲另类在线制服丝袜国产| 国产精品午夜福利精品| 苍井空一区二区波多野结衣av | 天堂…中文在线最新版在线| av色国产色拍| 精品国产一区二区在线视| 日韩一区国产二区欧美三区 | 成人一区二区不卡国产| 亚洲欧美偷国产日韩| 女人与牲口性恔配视频免费| 国产偷拍自拍视频在线观看| 国产精品女在线观看| 欧美和黑人xxxx猛交视频| 国产精品白浆免费视频| 國产AV天堂| 少妇又爽又刺激视频| 国内自拍视频一区二区三区| 国产真实精品久久二三区| 玩弄放荡人妻少妇系列| 国产成人亚洲无码淙合青草| 亚洲老熟女一区二区三区| 国产学生裸体无遮挡免费| 最新亚洲人成无码网站欣赏网| 丰满岳乱妇三级高清| 亚洲第一视频区| 国产精品最新免费视频| 偷拍一区二区三区在线视频| 99蜜桃在线观看免费视频网站| 亚洲熟妇色自偷自拍另类| 老司机午夜精品视频资源| aa级毛片毛片免费观看久| 国产成人综合色视频精品| 99久久免费精品国产色| 女人色熟女乱| 视频一区二区不中文字幕|