評估統計算法在銀行偽造鈔票檢測中的價值
數據科學項目
“評估統計算法在銀行偽造鈔票檢測中的價值”
by 吳同學
目的
這個數據科學項目的目的是提出一種可靠的算法,以便通過光學掃描儀或類似工具,銀行可以區分“真鈔”和“偽造”鈔票。一般來說,光學掃描儀會檢測每張鈔票的某些特征,并將它們發送到一個算法,該算法將建議將鈔票分類為“真鈔”或“偽造鈔票”。然后,“偽造”的鈔票將退出流通。
我們的建議是使用一種稱為“k-means聚類”的技術的統計算法。
數據說明
為了評估這是否是分離鈔票的好方法,我們對 1372 張鈔票樣本進行了測試,這些樣本取自 OpenML 網站,由于其尺寸很大,這對我們來說似乎是一個很好的樣本。該樣本包含從每張鈔票(V1 和 V2)中獲取的 2 個特征,這些特征實際上是從真偽和偽造的類似鈔票的樣本中提取的圖像中提取的。
圖1 - 原始數據
如示例數據描述中所述,對于數字化,使用了通常用于印刷檢查的工業相機。最終圖像具有 400x 400 像素。由于物鏡和與被研究物的距離,獲得了分辨率約為660 dpi的灰度圖像。使用一種特殊的工具(稱為“小波變換”)從圖像中提取特征。
方法:如何分析數據
首先通過描述性統計(例如平均值、標準差、最大值、最小值)分析數據,以了解樣本特征。然后,我們繪制了結果。
圖2 - 原始數據散點圖
之后,我們還使用了一種稱為“最小-最大標準化”的技術,以便為分析適當縮放數據。
最后,我們對數據運行了 2 均值算法,以分析它是否能夠區分真鈔和偽造鈔票的 2 簇。我們運行了幾次以評估其整體穩定性。
圖3 - 數據2均值聚類
這種方法的強度和局限性
我們分析的主要優點是所使用的算法非常容易實現,并且快速高效。我們分析的局限性在于,我們假設樣本數據代表了流通中的紙幣(包括真鈔和偽造鈔票)的總體數量。此外,據我們所知,該樣本是在 2012 年收集的。過去 11 年的技術進步可能會改變樣品的可靠性。
在建模方面,我們使用了 k - means聚類技術,因為它看起來適合這種分析,盡管可能已經實現了其他有用的技術,例如 DBSCAN 聚類。進一步的分析可能會嘗試比較這兩種方法,以評估哪一種似乎更好。
結果摘要
最后,我們將模型預測與觀察數據中的實際鈔票分類進行了比較。該模型最終的預測成功率為 87%,這絕對比隨機猜測要好。
因此,我們建議使用此算法來自動檢測偽造鈔票

浙公網安備 33010602011771號