斯坦福【概率與統計】課程筆記(〇):前言
這個系列的隨筆,起源于工作中遇到的問題:拿到一份試驗數據后,該如何分析其內容并得到有價值的結論?
一般說來,某個產品在上線之前,都會在小范圍內做實驗,看看用戶對產品新功能/新樣式的反映如何,實驗的結論會產出很多體現用戶反映的各種維度、各種指標的數據,而且量級都比較大(可能幾萬個甚至十幾萬個值)。那么問題來了:給你這樣一份數據,你能從中挖掘出什么有用的信息,來說明這個實驗的結果是好是壞?好在哪里、壞在哪里?如果是壞的,那么如何改進?
我發現項目組中的很多博士同學尤其是數學博士,對待這種問題有一套比較成熟的方法,比如他們會畫出各種圖表來證明數據是否對稱、有偏、某兩個特征的相關性、某個特征的權重等。
但我一直對這類問題沒有熟練掌握解決方法,究其原因,主要還是不懂得如何統計分析,大學學過的《概率論與數理統計》那一套基本還給老師了——即便還記得一些,也和當前遇到的問題對不上號,不懂得怎么使用。
當然,在從前使用統計機器學習模型的時候,特征都是自己選取的,也會用到一些特征度量方法,但僅限于簡單的看看特征分布(哪個值出現的多、哪個值和結果相關、值的范圍是不是歸一化的等等),還是沒有掌握一個整體的方法論。
偶然在一個公眾號下看到了這個斯坦福系列課程,感覺應該會對自己上面的困惑有幫助,所以決定抽時間系統地學習、總結一下。
安利課程鏈接:https://online.stanford.edu/courses/gse-yprobstat-probability-and-statistics
希望最終能達到這個系列學習的目的。2個月之后見

浙公網安備 33010602011771號