<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      yyyyyyyyyyyyyyyyyyyy

      博客園 首頁 新隨筆 聯系 訂閱 管理

      深度學習推薦系統領域的15個問題

      1.如果領導讓自己同時帶一個NLP團隊和CV團隊,而此時對CV卻不熟悉,一般如何快速建立這樣的多種類型的知識體系呢?

      和我的經歷有一點像,我在職業生涯頭五年一直是做計算廣告的,bidding算法,預算控制,CTR預估之類的,推薦系統是我這三年的重點,雖然計算廣告跟推薦系統有很多相通之處,但在系統架構,推薦模型上還是有諸多區別。所以可以分享一下我的經驗。

      感覺進入一個新領域還是要多看,多想,多整理,自己的消化吸收整理特別重要,但是所有的一切一定是要建立在你之前知識基礎上的,找到很多知識之間的共通之處,才能提高吸收的效率。

      而且不可否認NLP的很多知識肯定是跟CV相通的,類似于兩個領域的機器學習底層是共享的,上層的application有所區別,這時關注的重點應該在CV的主流方法和主流工具框架上,把它嵌入到你的知識底座上面去。

      但是一個leader到底需不需要深入到細節中去,我覺得這個跟每個人的領導風格有關系,我個人倒是覺得帶兩個團隊的leader應該從領導方法上多下功夫,建立知識的大框架,作方向性的正確抉擇就好,對于細節的知識模塊倒是要求不那么高了,當然這是題外話了。

      2.王老師看好深度強化學習在推薦領域的前景么?能不能談一下您的理解。

      非常看好,我看好四個子領域在推薦系統的前景,強化學習、邊緣計算、知識蒸餾、深度學習工程架構。

      強化學習本質上是提高了agent online學習的頻率,它更快的適應環境的發展,作出更實時地,更符合當前環境的推薦。這和提高模型表達能力是不同的,它從實時性的、探索的、可適應的角度提高效果,這是之前推薦系統不曾有過的能力和信息。

      但強化學習是跟實時推薦系統架構緊密相關的,不能簡單認為這是一個模型訓練問題,它的要點在于如何跟工程架構,數據流,模型本身緊密的耦合起來,對于整個團隊的要求是非常高的。但毫無疑問,這種工程和模型緊密結合的領域,應是未來的方向。

      3.老師,我有兩個問題。a.遇到樣本數很少,但是特征數很多的情況下,該怎么辦;b.遇到特征非常稀疏,特征雖然多,但是查得率都很低的時候該怎么辦呢

      a. 比較難利用深度學習模型進行訓練,也許可以考慮tree based model,或者一些傳統的分類模型,深度學習模型幾乎無法收斂。不知道GAN在推薦系統中能不能應用,感覺不是特別容易work。

      b. 如果樣本數量很大的話,特征稀疏其實并不是問題,你可以做這樣的想象,id類特征的onehot encoding,大部分維度都是0,但是在大樣本量下,照樣可以學出質量非常高的embedding。如果是樣本量太少,特征又稀疏,這個問題太難了,希望大家有好的經驗分享。

      4.王喆老師,請教您一個問題:推薦系統或廣告系統是一個環境變化性極大的場景,在優化模型時,有哪些方法能比較好的保障線下訓練結果與線上實際表現之間的一致性? 謝謝!

      非常好的問題,書里面有專門的一章“推薦系統的評估”去討論這個問題。這個問題必須系統的看,好的評估系統一定是一個體系,而不是一種方法。

      在離線和在線之間,至少還有離線replay,線上inter leaving測試等快捷的方法。要用體系的思路分級的去解決這個問題,而不是一定要保障一致性,線下結果本身有很強的data bias的問題,永遠也不可能做到跟線上一致。

      線下測試的作用是快速過濾掉一些確實非常不靠譜的模型和想法,在評估體系的每個層級再去過濾掉不生效的改進,逐漸到線上AB Test。

      5. 如何看待知識圖譜在推薦系統上的應用?

      知識圖譜由于Graph Embedding,GCN的發展再次流行起來,跟之前的content based 系統有聯系,也有進展。

      知識圖譜是一定可以跟用戶行為類數據聯合起來在推薦系統中使用的,它是冷啟動的非常好的方法,也是用戶行為數據的最有效補充。

      6.線下AUC提升了但線上的點反而下降,遇到這種情況要怎么尋求解決方法?

      請參考問題4,而且事實上AUC是一個不那么真實的指標,它評價的場景其實跟用戶真正看到的場景相去甚遠(大家可以從AUC是怎么計算的,以及線上用戶是看到什么結果,好好想想這句話),這也就是你經常看到很多paper在評價模型的時候會對AUC進行改進。

      要多從問題的本質想問題,不要唯AUC論,它只是一個習以為常的,慣例性的指標,但并不意味著它是一個好的指標。

      當然,模型本身的問題肯定也是可能的,數據有偏,模型太復雜導致過擬合,線下線上環境差距太大,模型更新有問題,都是可能是原因,但這里信息不足無法定位。

      7. 王喆老師你好,您如何看待推薦的可解釋性的重要性?對于推薦的可解釋性,能否分享一些通用的方法?

      這方面還真不是專家,我只能說根據hulu的經驗,給出一定的推薦原因是非常好的提高CTR的方法。但感覺推薦模型的可解釋性和推薦結果的可解釋性應該是兩個問題,歡迎相關的專家提出解決方法。

      8.提問:海量級別(上億)的信息流動態id如何做特征向量化?

      這個是個非常好的問題,我因為一直做視頻推薦,而且是類似優酷這種長視頻推薦,所以動態id的變化速度沒有信息流這么快,這里只能提一些建議。

      如果是采用embedding的方法對這些id進行特征化,那么就要盡可能的提升embedding的更新速度,但是我們也知道,embedding的訓練一般是非常耗時的,幾小時訓練一次已經是非常快的速度。

      那么在這樣的情況下,就要準備一些冷啟動的方法,比如用一些相似性找到近似的新聞,進行這些已有新聞embedding的平均,或者類似平均的計算。這樣的做法airbnb已經有過成功的應用。

      另外,我們在模型中不要只實用id類特征,時間、nlp處理的title,內容,作者信息、發布地點、一些可用的分類標簽等等都可以作為特征,這些內容和上下文特征顯然是可以實時生成的,這些都可以作為冷啟動時期的特征向量。

      當然還有一種做法,就是在多路召回中采取基于規則或者其他策略的召回方式,這樣避免單一模型的片面性。

      9. 大佬,如何看待圖神經網絡在推薦系統上的推進?是否比前面的經典神經網絡更有效果?

      我們也在進行這方面的嘗試,但從Pinterest的嘗試來看,在自己的數據結構是圖的特征(訂閱、點贊關系)非常明顯的時候,圖神經網絡是能夠大幅提升推薦效果的。

      但是一定要清楚的是不要寄希望于一個技術能在幾乎所有場景上都更有效果,更有效果一定是因為這個模型非常適合于應用在你的數據特點上。

      圖神經網絡當然更適合處理圖數據,但一定要清楚一點,所有技術改進能夠產生效果一定是因為它符合你的數據特點,你的數據能夠支撐起模型的優勢。圖神經網絡同理。

      10. 我想問下老師,現在有的小公司不用深度做推薦,而一些大公司已經在用深度了,現在做學習準備,深度模型和非深度模型應該各占多少百分比的學習?

      這個問題比較個人,根據自己的需求有重點的去學習吧。如果是我的建議的話,還是根據我一直提倡的,從經典模型到深度模型,逐漸建立自己的知識體系是最重要的。

      11.推薦系統的模型改進后如何進行評價(即如何量化評估模型的好壞)?

      請參考書中的“推薦系統的評估”章節,逐漸建立一套從離線-replay-interleaving-AB test的評估體系。

      12.如何平衡工作和個人知識積累或總結(比如寫Blog和著書)的時間?

      我有一個固定的總結和寫東西的時間,就是晚上10點-12點,等我娃睡覺了之后。。如果每天就固定出一塊時間做某件固定的事情,可能就不嫌時間少了。至少我做這件事情還挺開心的,不覺得工作之外額外的痛苦。

      13.大佬對在校生提升工程能力有啥建議嗎,感覺在學校里天天看論文,現在招聘市場上對工程能力要求很高,有點慌

      非常好的問題,參加實習,參加實驗室項目是必須的,我覺得重要性甚至超過發論文。我見過的大部分算法崗的manager都喜歡在學術能力夠用的基礎上,招工程能力強的同學。很好理解嘛,大家都喜歡來之能戰,能幫自己解決問題的同學,不會喜歡眼高手低加入團隊之后還要別人配合的同學。

      如果沒有實習,也沒有項目機會,我建議要自己給自己找項目。我研究生的時候曾經自己做過一個游戲文章推薦系統,我甚至還靠這個項目做SEO,接google ads賺了一些錢。

      所以給自己找一個目標吧,用推薦系統這套東西做點實用的工具,比如科技文章抓取加推薦工具,自動分類paper的工具之類的,做得好了還能開源,利人利己,一舉多得,最重要是鍛煉了自己的工程能力。

      14.我們做電商網站的,還沒做個推薦相關的技術應用,計劃通過推薦提高訂單量,增加收入,請問入門用什么樣的推薦框架?

      如果真的是從0開始的話,我覺得入門就從協同過濾開始吧。業界經典,理論簡單實用。在此基礎上不斷優化。

      推薦框架其實都不用有,每個物品一個向量,用戶一個向量,一乘之后排序就行了。當然這里面規模大了也有很多工程問題,那就到時候人擋殺人,佛擋殺佛吧。

      15.目前比較火的深度推薦系統模型似乎都是工業界發出來的論文。請問王喆老師對這些現象有什么看法?是不是只有進入工業界才能對深度推薦系統的研究產生大的進展呢?是不是可以說現在的深度推薦模型的進展都是各大公司神仙打架,而純學術研究的價值不高呢?

      這是個非常好的問題。其實不僅是現在,推薦系統,計算廣告這種業界背景很強的學科,一直以來都是業界巨頭驅動的。amazon協同過濾,netflix矩陣分解,到google,阿里,微軟深度學習,都是因為業界的成功應用才流行起來。

      這里原因其實不難發現,現在越來越強調數據的重要性,數據規模的重要性,線上測試的重要性,這些都是只有在巨頭公司才能做的。

      而且這個世界終究是要拿事實說話的,真正落地的東西大家才會完全認可。所以如果想切實推動推薦系統的進展,去大公司沒有錯。

      但另一方面,學界的價值永遠是不可替代的,一些新的idea,一些新的角度總是學界提出的。就拿google提出的word2vec這種人盡皆知的模型來說,是學界早在20年前就提出過類似的模型。更不要說RNN,LSTM了,雖然他們被業界逐漸應用,越帶越火,但你要知道你是站在學界的肩膀上的。

      所以如果希望影響力大,真正推動推薦系統發展,去業界巨頭,如果想做一些理論上的研究,提出更多創新點,做更多嘗試,在學界當然是更好的。

       

      posted on 2020-05-11 02:05  xxxxxxxx1x2xxxxxxx  閱讀(625)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 亚洲一区精品伊人久久| 中文字幕V亚洲日本在线电影| 在线观看视频一区二区三区| 欧美大bbbb流白水| 久久久av男人的天堂| 国内精品无码一区二区三区| 亚洲av与日韩av在线| 亚洲av片在线免费观看| A级毛片100部免费看| 人妻在线中文字幕| 国产超碰人人做人人爰| 久久精品国产久精国产一老狼| 激情五月天一区二区三区| 中文字幕亚洲人妻一区| 在线a亚洲老鸭窝天堂| 国产成人亚洲欧美二区综合| 在线看无码的免费网站| 免费无码影视在线观看mov| 日韩黄色av一区二区三区| 99精品人妻少妇一区| 被c到高潮疯狂喷水国产| 午夜福利一区二区在线看| 国产色无码专区在线观看| 国产美女被遭强高潮免费一视频| 国产成人av一区二区三区不卡| 亚洲一区二区经典在线播放| 1精品啪国产在线观看免费牛牛| 欧美乱码精品一区二区三区| 亚洲av免费成人精品区| 亚洲日韩性欧美中文字幕| 2019国产精品青青草原| 青岛市| 人人澡超碰碰97碰碰碰| 五月天丁香婷婷亚洲欧洲国产| 在线午夜精品自拍小视频| 肉大榛一进一出免费视频| 在线aⅴ亚洲中文字幕| 国产黑色丝袜在线播放| 强行交换配乱婬bd| 久久精品国产亚洲av麻| 不卡一区二区国产在线|