<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      時間序列理論專題之一 前言

             時間序列方面的知識,在宏觀經濟分析、氣象預報、DNA分析、金融分析、營銷數據、語音分析、搜索引擎等領域,大有用武之地。具體來說,你會碰到下面的這些情形:

               1、你怎樣找出和用戶瀏覽的文章相關的文章?

               2、你怎么判斷搜索到的兩篇文章是同一篇文章?

               3、你怎樣找出網站用戶不同的瀏覽愛好,將這些用戶作為一組互相推薦給對方?

               4、你怎樣判斷最近一個月每天的銷售量走勢,和歷史上哪些月份比較相似,后續的走勢可能怎樣?

               5、你怎樣在股票的行情中,找出符合某種條件的所有歷史走勢?

               6、你怎樣從最近十年白菜的價格走勢中找出規律,并即時為各個城市提供預警?

               7、你怎樣從城市里每個企業的稅收記錄中,找出有可能逃稅的企業?

                ……

       

                很多很多,當然,這些都屬于數據挖掘的范圍,局限一點,多數問題可以使用時間序列理論解決,既直觀也比較好向用戶解釋清楚。

             不過多數程序員,并沒有接觸這方面的東西,目前也不存在一本通俗的教材,能夠一次性解決問題。所以,當我在實際的項目中,遇到這類問題的時候,為掌握相關知識,在兩周內查閱了大量的教材、介紹文章、論文,暈頭轉向的情形下,總算正常完成任務。這個過程非常辛苦,估計至少消耗了60個小時的有效工作時間。

             所以辛苦,是因為這個領域的研究者們,基本上是書呆子,實在太過變態。你可以看到那些金融計量專業的學生津津樂道的教材,滿是水分,該有的沒有,不該有的全有。相關的論文則滿紙公式,講理論很少涉及到具體的應用,講原理則往往讓你云山霧罩。項目完畢后,一聲嘆息,這些弄算法的簡直變態到我們程序員這種級別了,共同的特點是,不會說人話。

              有鑒于此,決定將時間序列方面相關的知識,歸納一下,算是為“程序員數學”奉獻一份特定領域的入門資料。從這個角度來說,這也為其他有需要的程序員節省一點時間,以突顯我本人在特定的時段,還算是半個好人。作為前言,下面回答幾個簡單的問題:

              我們需要掌握哪些技能?在實際應用中,我們常常需要實現時間序列的搜索、對搜索結果集合聚類、檢測異常。同時,由于時間序列往往處理的是海量數據,為提高性能,將其分段線性表示是必要的。為了實現搜索功能,當然需要了解相似性度量的方法。

              學習的方法是什么?從我個人角度來說是“始終把握自己的目的”、“理解”和“選擇”。一篇線性分段算法的論文,用不超過半小時的時間看完,你需要理解他這樣分段的物理概念是什么、數學依據在哪里、適合哪些情形、問題在哪里、與其他算法的區別在哪里。如果超過了半小時,對不起,僅僅線性分段的算法方面的論文,大致上你能找到幾百篇,每篇都有號稱獨創的算法,你用哪一個、你為什么用這一個、哪一篇論文完全可以看看簡介就忽略掉?理解的基礎上,選擇就相對簡單些,從你的目的出發:我希望如此如此,嗯,這六七種算法中,這一種最為接近,應該怎樣改進一下?比如在相關的項目中,我面臨的選擇是:使用什么方式進行分段、使用什么方式調節分段的壓縮比例獲得關鍵點序列、使用什么方式處理相似性度量的序列選取問題、使用什么方式判斷兩個序列是否相似、使用什么方式在長序列中搜索短序列,這些選擇每一個環節都比較了十種以上不同算法之后,才得定論。

              為什么每個環節都有很多不同種類的算法?三個原因:首先,各類時間序列的特征不同,比如有的是平穩的曲線、有的則是不停上下突變的曲線,有的需要考慮尖峰(比如心電圖),有的需要去除噪聲(比如股票的日線圖),因此,分段、搜索、搜索結果分析的方法也就不同。其次,我們對各類時間序列分析的目的也不相同,比如心電圖的分析,正常人的序列是平穩波動、有規律的,由此能夠計算心率之類的指標,但突然的、零星的出現的尖峰,則是我們關注的重點,這個很顯然是心臟疾病的特征。而在股票日線的分析中,我們需要找到符合某種模式的走勢、或者對大幅上漲或者大幅下跌的情形之前的走勢進行聚類,尋找規律,因此我們更關注的是正常的搜索而不是異常的檢測。最后,是我們這個國度令人煩惱的論文制度,我看到的很多論文都屬于某個科技基金贊助的項目,事實上多半的論文毫無價值,但無論是教授也好、碩士博士生也好,他們總得寫一點,要寫論文,至少就要從自己的腦袋中生造一種略有不同的算法,或者照抄國外已有的國內沒人注意到的算法,我甚至看到,某篇論文講解了一種使用角度描述分段序列的方法,另外一篇論文號稱是改進這個算法,認為前篇論文沒有考慮分段的長度問題,加入了一個長度權重,但實際上那篇論文在存儲數據的時候已經保存并處理了各片段的時間,這種所謂改進實際上完全是無的放矢。

              需要哪些數學基礎?真正的理解這個領域的所有東西,需要空間幾何、動態規劃、概率統計、神經網絡、遺傳算法、等等很多的數學基礎知識,害怕吧?不過,接下來我會盡量的控制,讓這個范圍盡量局限在高中數學的范疇里。沒有那么復雜,所謂數學,無非是每提高一個層次,就多一些術語的問題,去掉這些術語,很多知識可以簡單的實用化的去理解。我非常非常的同情包括我本人在內的大部分的程序員,因為大學畢業多年后,他們早已經遺忘了極限、導數甚至三角函數這些基本的知識,基于這種同情,完全有必要用最粗淺的數學基礎來講清楚這所謂高深的時間序列理論。

              我會怎樣的講解?將分成如下的專題分別描述: 1、時間序列的表達;2、時間序列分段線性表示(讓序列變短,但保留基本形狀);3、時間序列的相似性度量(兩個序列怎樣叫相似?);4、時間序列搜索(怎樣在長序列中找到短序列?);5、時間序列搜索結果的聚類(哪個區間的價格結果最多,占多大比例?);6、時間序列的異常檢測(哪里的數據發生了突變?)。第6項可能會忽略,因為我在項目中并沒有碰到這個問題。這個過程中,我會盡量使用人類的語言描述,以避免讀者遇到我所經歷過的半個月的煎熬。  

              當然,本系列的文字版權所有,僅供閱讀,拒絕轉載,拒絕程度萬分強烈。本系列從2011年1月11日開始撰寫,目的是為了內部開發團隊的專題培訓,預期在1月31日以前完成。

      posted @ 2011-01-11 17:01  玄歌  閱讀(3458)  評論(10)    收藏  舉報
      主站蜘蛛池模板: 九九热在线视频只有精品| 久久夜色精品国产网站| 国产精品自拍视频免费看| 国产一区二区三区四区激情| 18禁无遮挡啪啪无码网站| 精品国产中文字幕av| 国产免费网站看v片元遮挡| 国产麻豆剧果冻传媒一区| 人妻少妇偷人一区二区| 精品国产av一二三四区| 国产精品中文字幕观看| 信宜市| 国产精品无遮挡猛进猛出| 啦啦啦高清在线观看视频www| 99精品国产综合久久久久五月天| 国产色无码专区在线观看| 久久96热人妻偷产精品| 亚洲伊人久久综合影院| 少妇午夜啪爽嗷嗷叫视频| 国产午夜精品久久精品电影| 国产高清自产拍av在线| 宁武县| 久久99精品久久久久麻豆| 国产农村激情免费专区| julia无码中文字幕一区| 国内极度色诱视频网站| 国产成人无码AV片在线观看不卡 | 日韩精品毛片一区到三区| 亚洲中文字幕精品第三区| 国产精品久久久久久久久电影网| 通许县| 亚洲熟妇色自偷自拍另类| 婷婷伊人久久| 插入中文字幕在线一区二区三区| 在线天堂最新版资源| 一本一道av中文字幕无码| 精品人妻中文无码av在线| 亚洲日韩国产精品第一页一区 | 国产成人一区二区三区免费| 日本高清aⅴ毛片免费| 亚洲AV无码一二区三区在线播放|