摘要:
第一部分、十道海量數據處理面試題1、海量日志數據,提取出某日訪問百度次數最多的那個IP。 此題,在我之前的一篇文章:十一、從頭到尾徹底解析Hash表算法里頭有所提到,當時給出的方案是:IP的數目還是有限的,最多2^32個,所以可以考慮使用hash將ip直接存入內存,然后進行統計。 再詳細介紹下此方案:首先是這一天,并且是訪問百度的日志中的IP取出來,逐個寫入到一個大文件中。注意到IP是32位的,最多有個2^32個IP。同樣可以采用映射的方法,比如模1000,把整個大文件映射為1000個小文件,再找出每個小文中出現頻率最大的IP(可以采用hash_map進行頻率統計,然后再找出頻率最大的幾個)及 閱讀全文
posted @ 2011-03-29 09:40
王福朋
閱讀(2568)
評論(1)
推薦(3)

浙公網安備 33010602011771號