模型2匯率的數據預處理環節
數據來源:中國銀行官網
數據項:貨幣名稱【歐元】、匯率、時間
數據預處理圍繞四個方面展開:重復值、異常值、歸一化、缺失值
由于數據來源于官方網站,本身不存在缺失值及異常值,通過觀察樣本數據可知,數據的波動范圍在7.800~8.000之間【數據保存三位小數】,波動范圍較小,,所以不需要進行缺失值、異常值及歸一化處理。
【待思考】數據要不要進行重復值處理???【官網一天大概更新20次匯率,本身就有重復項,如果進行重復值處理,目的何在???】
關于測試集和訓練集的劃分:參考同類型論文【基于改進粒子群算法-高斯過程回歸模型的天然橡膠期貨價格預測研究、基于混合深度學習的股票價格指數滑窗預測】,訓練集和測試集的比例大概為3:1,于是我將2024年人民幣兌歐元匯率數據,按照月份劃分訓練集和測試集,1——9月為訓練集【大概3萬多條】,10——12為測試集【大概1萬多條】。

查看上述兩篇論文,他們在數據預處理環節,都用到了滑窗法:

還有就是關于模型的評價指標:


浙公網安備 33010602011771號