摘要:
偷懶神器 網址:https://curlconverter.com/ 方法:找到你要發送請求的url 鼠標右鍵 copy --> copy curl(bash) 閱讀全文
posted @ 2023-04-05 00:50
LePenseur
閱讀(65)
評論(0)
推薦(0)
摘要:
IP反爬 http協議:是屬于應用層的協議 應用層:封裝數據 傳輸層:封裝端口 網絡層:封裝IP地址 數據鏈路層:封裝Mac地址 物理層:進行數據傳輸 通過IP訪問頻率來進行反爬,正常的用戶一秒鐘發送一次請求,我們使用爬蟲的話是可以在一秒內發送多次請求的,這個很明顯就是一個爬蟲的行為。 不要你訪問他 閱讀全文
posted @ 2023-04-05 00:50
LePenseur
閱讀(39)
評論(0)
推薦(0)
摘要:
字體反爬 字體解析網址:https://kekee000.github.io/fonteditor/ 反反爬原理 導包,將字體文件解析成xml文件 from fontTools.ttLib import TTFont font = TTFont('be251a83.woff') font.saveX 閱讀全文
posted @ 2023-04-05 00:49
LePenseur
閱讀(47)
評論(0)
推薦(0)
摘要:
反爬處理 爬蟲:使用技術手段去批量的獲取網上的數據 反爬:使用技術手段,阻止別人獲取自己網站上的數據 反反爬:使用技術手段 繞過對方反爬策略 請求頭反爬 User-Agent:在HTTP請求的請求頭里面的一個字段,用來表明。請求的客戶端是什么,不同的瀏覽器會有不同的User-Agent。我們之前處理 閱讀全文
posted @ 2023-04-05 00:49
LePenseur
閱讀(123)
評論(0)
推薦(0)
摘要:
數據存儲:Excel python內置模塊中是沒有提供處理Excel文件的模塊,想要在python中操作Excel是需要安裝第三方模塊openpyxl,這個模塊中集成了python操作Excel的相關功能。 cmd:pip install openpyxl 需要注意的是 openpyxl處理的Exc 閱讀全文
posted @ 2023-04-05 00:48
LePenseur
閱讀(28)
評論(0)
推薦(0)
摘要:
多任務爬蟲 線程進程回顧 實現多任務爬蟲的方式:多進程/多線程 進程:是計算機當中最小的資源分配單位 線程:是計算機當中可以被CPU調度的最小單位 我們執行一個python代碼的時候,在計算機的內部會創建一個進程,在進程當中會創建一個線程,代碼是由線程去執行的 創建進程/線程 import time 閱讀全文
posted @ 2023-04-05 00:47
LePenseur
閱讀(29)
評論(0)
推薦(0)
摘要:
selenium 動態網頁爬蟲: 分析接口,然后通過代碼請求這個接口 使用selenium+webdriver模擬瀏覽器獲取數據 1. selenium和webdriver Selenium是一個Web的自動化測試工具,最初是為網站自動化測試而開發的,Selenium可以直接調用瀏覽器,它支持所有主 閱讀全文
posted @ 2023-04-05 00:47
LePenseur
閱讀(38)
評論(0)
推薦(0)
摘要:
數據存儲 一、MySQL 1.1 pymysql 建立數據庫連接db = pymysql.connect(...) 參數host:連接的mysql主機,如果本機是'127.0.0.1' 參數port:連接的mysql主機的端口,默認是3306 參數database:數據庫的名稱 參數user:連接的 閱讀全文
posted @ 2023-04-05 00:46
LePenseur
閱讀(59)
評論(0)
推薦(0)
摘要:
二、BeautifulSoup4 和lxml一樣,BeautifulSoup4也是一個HTML/XML的解析器,主要的功能是解析和提取HTML/XML數據。 安裝:pip install bs4 由于BS4解析頁面時需要依賴文檔解析器,所以還需要安裝lxml作為解析庫 解析原理 - 數據解析的原理: 閱讀全文
posted @ 2023-04-05 00:44
LePenseur
閱讀(36)
評論(0)
推薦(0)
摘要:
數據提取 lxml和xpath lxml是Python的第三方解析庫,完全使用Python語言編寫,它對Xpath表達式提供了良好的支持,能夠了高效地解析HTML/XML文檔。 XPath即為XML路徑語言,它是一種用來確定XML文檔中某部分位置的語言,同樣適用于HTML文檔的檢索。 安裝:pip 閱讀全文
posted @ 2023-04-05 00:44
LePenseur
閱讀(34)
評論(0)
推薦(0)
摘要:
get請求 # 請求參數用params params={ 'type': '24', 'interval_id': '100:90', 'action':'', 'start': '1', 'limit': '20' } response = requests.get(url=url,params= 閱讀全文
posted @ 2023-04-05 00:43
LePenseur
閱讀(40)
評論(0)
推薦(0)
摘要:
requests的使用 一、requests模塊 1.1 request模塊的安裝 在CMD命令行中執行如下命令進行在線安裝 pip install requests 由于網絡的不穩定性有時會導致下載失敗,在下載的時候我們可以加上第三方源進行下載 清華:https://pypi.tuna.tsing 閱讀全文
posted @ 2023-04-05 00:42
LePenseur
閱讀(38)
評論(0)
推薦(0)
摘要:
初識爬蟲 一、爬蟲介紹 爬蟲主要的功能就是抓取網絡數據的程序。本質就是用程序模擬人使用瀏覽器訪問網站,并將所需要的數據抓取下來。 爬蟲可分為兩大類:通用網絡爬蟲、聚焦網絡爬蟲 通用網絡爬蟲:是搜索引擎的重要組成部分,百度搜索引擎,其實可以更形象地稱之為百度蜘蛛(Baiduspider),它每天會在海 閱讀全文
posted @ 2023-04-05 00:41
LePenseur
閱讀(147)
評論(0)
推薦(0)

浙公網安備 33010602011771號