<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      jupyter的基本快捷鍵

      - a b 創建cell(a是在選擇的cell上方創建cell,b是在下方)
      - x dd 刪除cell
      - TAB 單詞補全
      - shift+tab 查看幫助信息
      - y m 模式切換

      爬蟲的概念

      - 通過編寫代碼來模擬瀏覽器操作,去互聯網上爬取/獲取數據的過程

      爬蟲的分類

      - 通用爬蟲 爬取一整張頁面的數據
      - 聚焦爬蟲 想要獲取局部數據,必須要建立在通用爬蟲的基礎上(數據解析)
      - 增量式爬蟲 實時監測網站上數據更新的情況,只爬取已經更新的數據

      反爬機制

      - 網站的公司或者個人制定了一系列的規則或策略阻止爬蟲程序爬取數據

      反反爬策略

      - 通過改進爬蟲程序來破解一些反爬機制,從而達到獲取帶有反爬機制網站的數據

      robots協議

      - 文本協議, 防君子不防小人

      請求頭

      - User-Agent 請求載體的身份標識(華峰的身份證)
      - Connection: close

      響應頭

      # 響應數據類型
      - Content-Type: text/json

      fidder抓包工具

      HTTP協議(https和加密方式)

      - 協議的概念: 客戶端與服務端進行交互的一種方式
      - 加密方式:
          - 對稱密鑰加密
          - 非對稱密鑰加密
          - 證書密鑰加密

      requests模塊

      - 安裝:
          - pip3 install requests
      - 概念:
          - 模擬瀏覽器向網站服務器發送請求
      - 作用:
          - 爬取數據
      - requests模塊的使用:
          - get
          - post
      - 反爬機制:
          - UA檢測
      - 反反爬策略:
          - UA偽裝
       

      爬取數據的流程:

      - 1.指定URL      url = "https://www.baidu.com"
      - 2.發送請求     response = requests.get(url=url)
      - 3.獲取響應數據  page_text = response.text
      - 4.持久化存儲    with open('./file.html', 'w', encoding ='utf-8') as f:
                    f.write(page_text)



      第一個爬蟲案例:

        

      # 需求:爬取搜狗指定詞條搜索后的頁面數據(通過UA偽裝對代碼改進)
      
      import requests
      url = "https://www.sogou.com/web?query=學位"   #獲取url
      headers = {
         "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
      }    #UA偽裝
      response = requests.get(url=url,headers=headers)  #發送請求
      response.encoding="utf-8"                                     #獲取的數據提供編碼方式
      page_text = response.text                                      # 獲取數據
      with open('./sougou.html', 'w', encoding='utf-8')as f :  #長久保存
          f.write(page_text)

      對上一個案例進行改進:

        查詢的keyword允許自定義輸入

      import requests
      word = input("請輸入需要查詢的關鍵字: ")
      sougou_url = "https://www.sogou.com/web"
      headers = {
         "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"
      }
      params = {
          "query":word
      }
      response = requests.get(url=sougou_url,headers=headers,params=params)
      response.encoding='utf-8'
      page_text = response.text
      
      with open('./daxiong.html','w',encoding='utf-8')as f:
          f.write(page_text)

       






















       
      posted on 2019-07-01 19:15  拾玥大熊  閱讀(880)  評論(0)    收藏  舉報

      主站蜘蛛池模板: 老司机午夜精品视频资源| 18岁日韩内射颜射午夜久久成人| 精品超清无码视频在线观看| 色哟哟www网站入口成人学校| 亚洲第一福利网站在线观看| 久热这里只有精品视频六| 日本高清视频网站www| 无套内谢少妇高清毛片| 色爱综合激情五月激情| 亚洲一区av无码少妇电影| 2021亚洲va在线va天堂va国产| 亚洲毛片不卡AV在线播放一区| 梁平县| 啦啦啦视频在线日韩精品| 国产精品无码a∨麻豆| 亚洲日韩国产中文其他| 少妇高潮潮喷到猛进猛出小说 | 亚洲精品香蕉一区二区| 国产精品一区二区三区四| 不卡一区二区国产在线| 亚洲人成网站18禁止无码| 亚洲码与欧洲码区别入口| 亚洲成人www| 国产成人一区二区三区在线| 亚洲肥老太bbw中国熟女| 精品嫩模福利一区二区蜜臀| 国产成人午夜精品福利| 亚洲人成小说网站色在线| 亚洲乱码中文字幕小综合| 国产午夜在线观看视频播放| 亚洲精品国偷自产在线| 无码国内精品久久人妻蜜桃| 日本亲近相奷中文字幕| 无码中文字幕av免费放| 精品无码一区二区三区的天堂| av无码精品一区二区乱子| 99国产欧美另类久久久精品| 亚洲精品色哟哟一区二区| 亚洲精品日韩在线观看| 正在播放的国产A一片| 五月天中文字幕mv在线|