摘要:
源碼下載地址:http://download.csdn.net/source/414086漢字編碼是一項(xiàng)較為麻煩的事情,弄不好就會(huì)造出些誰(shuí)都看不懂的亂碼。比如我想做個(gè)針對(duì)漢字網(wǎng)站的爬蟲(chóng)系統(tǒng),需要對(duì)非特定的頁(yè)面進(jìn)行數(shù)據(jù)解析處理,而此時(shí)我所訪問(wèn)的頁(yè)面編碼格式未知,如果不能正確處理頁(yè)面編碼,則很難獲得我們理想中的數(shù)據(jù)。通常這時(shí)候可能有幾種選擇:一是根據(jù)response的ContentType獲得,如果服務(wù)器支持的話此項(xiàng)中會(huì)返回charset數(shù)值,解析即可。但對(duì)不返回或者不支持的服務(wù)器則無(wú)能為力。二是使用正則或自定義解析函數(shù)截取頁(yè)面中‘charset=’后的數(shù)據(jù),采取死釘戰(zhàn)術(shù),但萬(wàn)一采集的頁(yè)面中沒(méi)有此 閱讀全文
posted @ 2008-04-15 01:07
cping
閱讀(2267)
評(píng)論(0)
推薦(0)
浙公網(wǎng)安備 33010602011771號(hào)