<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12
      240
      我愛毛絨絨~~~~~~~

      爬蟲 - 網(wǎng)頁解析庫

      BeautifulSoup

      BeautifulSoup 是一個(gè)Python庫,用于從 HTML 提取數(shù)據(jù)

      它提供了簡單而靈活的方式來遍歷和搜索文檔樹,以及解析和提取所需的數(shù)據(jù)

      安裝

      BeautifulSoup的安裝涉及第三方的擴(kuò)展

      pip3 install beautifulsoup4
      

      Beautiful Soup支持Python標(biāo)準(zhǔn)庫中的HTML解析器,還支持一些第三方的解析器,其中一個(gè)是 lxml

      pip install lxml
      

      基本使用

      from bs4 import BeautifulSoup
      import requests
      
      
      url = 'http://www.rzrgm.cn'
      header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
      res = requests.get(url=url,headers=header)
      soup = BeautifulSoup(res.text,'lxml')
      show = soup.prettify() #處理好縮進(jìn),結(jié)構(gòu)化顯示
      print(show)    
      

      遍歷文檔樹

      遍歷文檔樹:即直接通過標(biāo)簽名字選擇,特點(diǎn)是選擇速度快,但如果存在多個(gè)相同的標(biāo)簽則只返回第一個(gè)

      soup為上文獲取的網(wǎng)頁解析對(duì)象

      • soup.標(biāo)簽名:獲取標(biāo)簽對(duì)象

      • soup.標(biāo)簽名.name:獲取標(biāo)簽的名稱

      • soup.標(biāo)簽名.attrs獲取標(biāo)簽的屬性

      • 獲取標(biāo)簽的內(nèi)容

        • soup.標(biāo)簽名.string:某標(biāo)簽下的文本只有一個(gè)時(shí),取到,否則為None

        • soup.標(biāo)簽名.strings:拿到一個(gè)生成器對(duì)象, 取到某標(biāo)簽下所有的文本內(nèi)容

        • soup.標(biāo)簽名.text:取到某標(biāo)簽下所有的文本內(nèi)容

        • soup.標(biāo)簽名.stripped_strings:去掉空白

      • 嵌套選擇

      • 子節(jié)點(diǎn)、子孫節(jié)點(diǎn)

        • soup.標(biāo)簽名.contents:某標(biāo)簽下所有子節(jié)點(diǎn)

        • soup.標(biāo)簽名.children:得到一個(gè)迭代器,包含某標(biāo)簽下所有子節(jié)點(diǎn)

      • 父節(jié)點(diǎn)、祖先節(jié)點(diǎn)

        • soup.標(biāo)簽名.parent:獲取父節(jié)點(diǎn)

        • soup.標(biāo)簽名.parents:獲取父節(jié)點(diǎn)的父節(jié)點(diǎn),生成器

      搜索文檔樹

      find 和 find_all

      兩者的唯一區(qū)別是:find_all() 方法的返回結(jié)果是值包含一個(gè)元素的列表,而 find() 方法直接返回結(jié)果

      • name:搜索name參數(shù)的值可以使任一類型的 過濾器

      • keyword:key=value的形式,value可以是過濾器:字符串 , 正則表達(dá)式,列表, True

        注意class是關(guān)鍵字,所以要加_

      • 按照類名查找
        查找class = post-meta-item 的span標(biāo)簽

      • limit:find_all限制條數(shù)
        查找class = post-meta-item 的span標(biāo)簽,輸出兩條結(jié)果

      五種過濾器
      • 字符串:即標(biāo)簽名

      • 正則表達(dá)式

      • 列表
        如果傳入列表參數(shù),Beautiful Soup會(huì)將與列表中任一元素匹配的內(nèi)容返回.下面代碼找到文檔中所有<a>標(biāo)簽和<p>標(biāo)簽:

      • True
        可以匹配任何值,下面代碼查找到所有的tag,但是不會(huì)返回字符串節(jié)點(diǎn)

      CSS選擇器

      暫不贅述

      Xpath

      from lxml import etree
      

      XPath 是一門在 XML 文檔中查找信息的語言

      import requests
      from lxml import etree
      
      header = {
          'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36'}
      url = 'http://www.rzrgm.cn'
      res = requests.get(url=url,headers=header)
      html = etree.HTML(res.text)
      

      節(jié)點(diǎn)

      • 所有節(jié)點(diǎn)

      • 指定節(jié)點(diǎn)(結(jié)果為列表)

      • 子節(jié)點(diǎn),子孫節(jié)點(diǎn)

      • 父節(jié)點(diǎn)

      屬性匹配

      • 文本獲取

      • 屬性獲取

      表達(dá)式 含義
      nodename 選取此層級(jí)節(jié)點(diǎn)下的所有子節(jié)點(diǎn)
      / 代表從根節(jié)點(diǎn)進(jìn)行選取
      // 可以理解為匹配,就是在所有節(jié)點(diǎn)中選取此節(jié)點(diǎn),直到匹配為止
      . 選取當(dāng)前節(jié)點(diǎn)
      選取當(dāng)前節(jié)點(diǎn)上一層(上一級(jí)目錄)
      @ 選取屬性(也是匹配)
      posted @ 2024-07-09 16:29  水開白  閱讀(22)  評(píng)論(0)    收藏  舉報(bào)
      主站蜘蛛池模板: 国产成人av电影在线观看第一页| 久久精品午夜视频| 四虎永久精品免费视频| 国产精品一区二区久久岳| 婷婷久久综合九色综合88| 四虎精品视频永久免费| 国产99青青成人A在线| 日本熟妇人妻xxxxx人hd| 东京热大乱系列无码| 亚洲国产精品一二三四五| 国产精品亚洲av三区色| 少妇被无套内谢免费看| 色老99久久精品偷偷鲁| 亚洲日韩久久综合中文字幕| 中文字幕有码高清日韩| 乱女乱妇熟女熟妇综合网| 亚洲VA中文字幕无码久久不卡| 94人妻少妇偷人精品| 国产精品综合色区在线观| 午夜无码国产18禁| 亚洲精品美女久久久久9999| 国产亚洲一区二区三区啪| 无码伊人66久久大杳蕉网站谷歌| 精品午夜福利在线视在亚洲| 亚洲欧洲一区二区福利片| 久久99久国产精品66| 亚洲人成电影网站 久久影视| 男女性杂交内射女bbwxz| 日本妇人成熟免费| 岛国av无码免费无禁网站| 亚洲一本二区偷拍精品| 丽水市| 亚洲成av人片天堂网| 国产成人综合在线女婷五月99播放 | 久久综合伊人77777| 德化县| 色偷偷女人的天堂亚洲网| 国产亚洲tv在线观看| 五月综合网亚洲乱妇久久| 久青草视频在线免费观看| 欧美精品亚洲精品日韩专区|