Python爬蟲 - 爬取百度html代碼前200行
Python爬蟲 - 爬取百度html代碼前200行 - 改進版, 增加了對字符串的.strip()處理
源代碼如下:
# 改進版, 增加了 .strip()方法的使用 # coding=utf-8 # urllib是用于獲取網絡資源的庫,python3自帶 # 此處的request是由Request類創建的一個實例對象 import urllib.request # 調用request對象的urlopen()方法 , 傳入url參數 file = urllib.request.urlopen("http://www.baidu.com") # readlines()方法逐行讀取整個文件到一個列表 # 注意: .readlines()方法會把字符串前后的空白字符都抓進來, 可用.strip()方法去掉 file_list = file.readlines() # 用for循環和if條件語句來遍歷讀取列表的前200個元素 i = 0 for file_per in file_list: i += 1 if i <= 200: print(file_per.strip()) # str.strip(): 去掉字符串前后的空白字符 else: break


浙公網安備 33010602011771號