隨筆分類 - 語義應用
摘要:如今有小伙伴看了當時這個產品的截圖,覺得哎呀呀技術不錯嘛,準嗎?后來怎么樣了?故事的開頭我們猜到了,故事的結尾嘛……
閱讀全文
摘要:先介紹一下SimHash處理短文本合并重復的效果,再介紹一下2009年2月份我們做Twitter銳推榜時是如何做的。
閱讀全文
摘要:前面說到Topic Engine/個性化閱讀/Meme Tracker這幾個方向所需要的研發團隊大致是12個人起。下面著重說一下在現如今如何做個性化閱讀。
閱讀全文
摘要:現在再講講個性化閱讀的過去、現在和未來,也算是這個話題的延續。
閱讀全文
摘要:這個算法的解釋參見我的文章:《Hacker News與Reddit的算法比較》。
閱讀全文
摘要:很少轉載其他人的博文,但此位來自于QQ閱讀團隊的“啃餅隨筆”博客,一直在撰寫AI、文本挖掘、文本分類以及一些方法論方面的心得體會,尤其是本月初在玩聚網被連續關閉(第一財經周刊用封面故事《保證書的世界》報道了此事)(我也榮幸地成為了“北京開關廠廠長”)之后,啃餅博客針對玩聚網寫了案例分析,把玩聚網創建以來的技術和產品路線做了一個回顧,也算是為玩聚網支持者和我們做了一個精彩點評。
閱讀全文
摘要:Amir Salihefendic(他是Plurk、Todoist的Co-Founder)在今年10月份撰文《How Hacker News ranking algorithm works 》完整地解釋了Hacker News的Ranking算法,從中我們才得以知道那個神秘的“1.5”是什么。稍后我們還會拿這個排序規則與Reddit的排序規則做對比。
閱讀全文
摘要:因此設置一個轉發水準度的閾值,比如要求每條上榜消息的轉發水準度大于0.2,就能避免大明星、名人、人氣王們隨隨便便發條消息就能上榜。
閱讀全文
摘要:簡單介紹下我們這個榜單與新浪自己的熱門轉發榜區別:
微博銳推榜 將無視明星推名人推,更關注草根推,更關注社會民生推,屏蔽無營養推。
微博銳推榜 將聚合以新浪微博為首的國內各大微博網站的熱門轉發消息。
閱讀全文
摘要:Social Computing Lab 最近發布了一個研究報告,其中一個結論是:名氣和影響力沒什么關聯,比人們期望的弱得多;名氣和影響力是兩碼事,關注者多并不等于有影響力,重要的是有多少人愿意轉發你的 Tweet 。
閱讀全文
摘要:Cutt.com在組織資訊時,我把它劃分到Topic Engine一類,暫且不談它的閱讀模式和群體智慧。(Updated:我拼寫錯誤,應該是“王靖雯”,這樣就可以找到王菲)
閱讀全文
摘要:原文地址:http://aimotion.blogspot.com/2010/07/working-on-sentiment-analysis-on.html
雖然是講葡萄牙語下的情感分析,但作為一個入門指導也有可看之處。
閱讀全文
摘要:Twitter 提供了兩種 Streaming 接口,讓第三方可以省卻輪詢,由 Twitter 主動把合適的數據推送過來,近乎實時。
閱讀全文
摘要:主要通過三種方式。當然,算上各種公開的 twitter 第三方Proxy API ,會更多。
由于每一種方式都有請求頻率限制,所以建議最終程序混合這三種方法,要么隨機選擇其一,要么按優先級逐次訪問,如果訪問不通,立刻切換到下一種。
閱讀全文
浙公網安備 33010602011771號