1.項(xiàng)目的方向很重要,在項(xiàng)目開(kāi)始之初就應(yīng)該做好設(shè)計(jì),而不是將希望寄托于別人已經(jīng)做好的開(kāi)源項(xiàng)目上,要自己做好系統(tǒng)設(shè)計(jì),不能老想著直接用外部成型的項(xiàng)目,最多看看他人的邏輯,而不是說(shuō)全部拿來(lái)。這點(diǎn)最為重要。前期應(yīng)該多做background reading,自己做好系統(tǒng)架構(gòu)。
2.做項(xiàng)目的時(shí)候,開(kāi)始啟動(dòng)項(xiàng)目的時(shí)候要確定好架構(gòu)的應(yīng)用場(chǎng)景,比如spark,hadoop確實(shí)很火,但是用它們來(lái)跑deeplearning真的很慢,在最開(kāi)始做的時(shí)候,就要發(fā)現(xiàn)這個(gè)問(wèn)題,及時(shí)調(diào)整方向就好了,而不能等到最后還在死扛著,整個(gè)項(xiàng)目就毀了。所以應(yīng)該考慮使用spark和hadoop來(lái)進(jìn)行個(gè)性化推薦或者輿情分析的。
3.隊(duì)友的選擇很重要,自己在項(xiàng)目之初高估了自己的能力,也沒(méi)有用上隊(duì)友的能力,導(dǎo)致最后這個(gè)項(xiàng)目只能死扛了,當(dāng)時(shí)其實(shí)沒(méi)有必要,大家都沒(méi)有獲得到東西這樣。而自己一個(gè)人也不想做了。
在做項(xiàng)目過(guò)程中的感悟:
1.不是什么東西都是可以改改就可以用的,或者雖然可以跑了,但是性能并不好,但這反應(yīng)的是我的基本工不好,比如我沒(méi)有完全弄清楚spark怎么調(diào)優(yōu),雖然deeplearn4j是可以在spark上使用的, 但是它們的example就不合適,也許對(duì)于模型訓(xùn)練最好的還是在一臺(tái)性能強(qiáng)大的機(jī)器上 去完成,并且雖然deeplearn也許需要大量的數(shù)據(jù)集,但是我選擇的數(shù)據(jù)只是很小的數(shù)據(jù),更加不應(yīng)該放在集群上跑了。不過(guò)我自己也有一個(gè)疑惑,deeplearning一般的訓(xùn)練數(shù)據(jù)集是有多大了?
2.對(duì)于spark,我發(fā)現(xiàn)還是大量數(shù)據(jù)才能有用,也許是流數(shù)據(jù)才行了。比如,其他組主要做的是streaming的推薦以及輿情分析。或者商品推薦也是一個(gè)應(yīng)用方向。聽(tīng)說(shuō)還有的是圖像處理方向,比如相似圖片的推薦等。
目前自己想要立的flag:
1.做一個(gè)系統(tǒng),涉及到輿情分析的:初步設(shè)想子系統(tǒng)分布:獲取tweet數(shù)據(jù),處理數(shù)據(jù),----使用deeplearning或者NLP模型進(jìn)行預(yù)測(cè)結(jié)果,將這一段時(shí)間的結(jié)果進(jìn)行統(tǒng)計(jì)并且展示。
---- 這里也可以使用數(shù)據(jù)進(jìn)行云圖,將關(guān)鍵字列出來(lái)。
這個(gè)系統(tǒng)還有一個(gè)模型訓(xùn)練的問(wèn)題,我目前的想法是使用現(xiàn)有的論文進(jìn)行參考,然后實(shí)現(xiàn)一個(gè)。
2.在做一個(gè)新聞推薦系統(tǒng),如果新聞推薦系統(tǒng)沒(méi)有數(shù)據(jù)源,那還是參考tweet數(shù)據(jù),根據(jù)個(gè)人的tweet來(lái)classification,然后進(jìn)行tweet的消息推送,這個(gè)也可以擴(kuò)展到微博的使用上。
希望,后面可以用兩個(gè)星期來(lái)完成這兩個(gè)項(xiàng)目,個(gè)人項(xiàng)目,所以還涉及到網(wǎng)頁(yè)的展示。dashboard上。
另外就是這些項(xiàng)目是不是可以考慮使用scala來(lái)完成。不過(guò)工具的使用還是要考慮性能,我的能力,而不是為了使用而使用。
浙公網(wǎng)安備 33010602011771號(hào)