某連鎖酒店泄露數(shù)據(jù)的分析
2013-10-27 14:18 靈感之源 閱讀(9944) 評論(17) 收藏 舉報聲明
不提供任何下載,不提供任何指引,無需問我怎么得到,我不會回答。
前言
這個分析純粹是我喜歡數(shù)據(jù)挖掘,周末閑來無事練一下手。
源文件
源文件是一個SQL Server數(shù)據(jù)庫備份文件,從數(shù)據(jù)庫“shifenzheng”完整備份,從服務器GHOSTSLC-6BBFCB備份,備份日期是2013/5/27 0:45:49 備份用戶名叫anyi,備份數(shù)據(jù)庫大小8030071808 (約7.5GB)。

基本信息
1. 字段
數(shù)據(jù)庫只有一個表,叫cdsgus。里面有姓名、身份證號碼、性別、地址、國家、手機號碼、電子郵件等數(shù)據(jù),其它的如卡號、固話、傳真、公司、教育、興趣等基本上是殘缺甚至沒有的,甚至部分人的身份證號碼也是錯亂的,估計導入的時候沒有處理好。
而每個字段都設為長度2000的nvarchar,相當?shù)巴矗嘈胚@不是原始設計,而單純是泄露后自行快速導入的產物。

2. 記錄
里面有20050144條記錄(2005萬)。
3. 姓
取姓名的第一個字符做姓(不考慮復姓),有4644個性,最多是王,其次是張、李、劉、陳,似乎和中國的大姓吻合。有趣的是有人姓“色”、“糊”、“痕”、“&”、“@”、“π”(數(shù)學里面的pi)。。。相信是亂寫的。
10大姓里面已經(jīng)占了821萬用戶。

4. 性別
男性比女性多一倍。

5. 年齡段
剔除那些無效或不靠譜年齡,80后是主力,70后次之。90后只有60后的一半,貌似不科學。。。

5. 省份
省份數(shù)據(jù)基于身份證號碼,部分用戶使用的不是身份證號號碼,部分用戶提供了的數(shù)據(jù)不合法,我都一并剔除了。江蘇、山東和浙江用戶最多,相信是某某連鎖酒店在這些地區(qū)網(wǎng)點最多。

6. 更多
其實我還可以分析一下如手機提供商(移動/電信/聯(lián)通等)、登記時間的分布等,甚至多維如不同省份里的不同年齡段里的不同手機用戶之類,不過頸椎病發(fā)作,強忍疼痛寫了這篇博客,就此打住了,休息去。
后言
互聯(lián)網(wǎng)時代,每天產生的數(shù)據(jù)越來越多,數(shù)據(jù)安全問題日益嚴重,譬如之前的CSDN個人信息泄露,還有幾個大游戲網(wǎng)站的數(shù)據(jù)泄露,當然還有諸多沒有公開,只是在某些組織內部流轉的。
我的建議,保護好自己的個人信息,不要在網(wǎng)上隨意填寫敏感數(shù)據(jù),譬如身份證等,盡可能不同服務使用不同密碼并經(jīng)常修改。電話號碼等,如果非得要填寫,填寫一個備用號碼(專門用來填寫申請/注冊用,可隨便丟棄,不怕別人騷擾)。
浙公網(wǎng)安備 33010602011771號