如何找到Twitter上最有趣的中文用戶
鄭昀@玩聚銳推榜 20090222 (follow @zhengyun)
1、我要follow誰
作為一個各種 memeTracker 工具制造者,我(@zhengyun)一直想知道Twitter上什么樣的人值得follow、對我的胃口,當然他得是中文用戶,說的事兒怎么著也得跟中國有點兒關系。
我總結了一下自己的需求:
1:發布頻率至少一周一兩次(follow 哪些一年半載推特一下的名人會不必要地增加全球碳排量,so,可以無視);
2:相對來說,和我(@zhengyun)的Twitter以往歷史比較接近。不要光憑followers多就推薦給我,譬如雖然@bookhotel擁有高達1,190個followers,但顯然我不可能follow這個疑似Spammer的機器人;
3:我已經 follow 過的就不必再向我推薦了;
4:他/她/它的 Tweet 對我來說足夠有趣。“有趣”,多么含混的需求啊。
2、Twitter 用戶評價體系
看上去我們需要一個 Twitter (中文)用戶評價體系。
followers/friends 的維度不足以作為這個 Twitter 用戶是否有趣的判斷依據,就像Google的PageRank不會單純靠inbound links來判斷網站是否有用一樣。哪有什么依據呢?
譬如,你可以根據一個Twitter用戶名被其他用戶提及多少次來判斷他的流行程度。當然,如果有一群用戶拿Twitter作為群聊聊天室,那么這群人的名字(如@zhengyun)必然被常常提及,所以這個維度只能是復雜公式中的一個變量。所以這個維度要被你有多么個followers以及你推特的頻率等維度呈正比地抵消。
看上去,要估算出這么一個 Twitter 用戶評價體系,比想象中的復雜哦。
whoshouldifollow 貌似推薦的還不錯,不過不知道它的技術細節,它只說是“finds interesting people to follow based on who your friends are, and who they follow.”。
twellow 是依據你的Twitter Profile中的關鍵詞來對你分類的;wefollow 應該也是類似原理,并且允許你在Twitter里發表格式化好的tweet來主動向 @wefollow 聲明自己的標簽和分類。它們倆的分類,也可以作為一個參考維度。
Twitalyzer 的五項衡量指標倒是有指導意義,但畢竟我們不是為了評估某個Twitter用戶的影響力,而是為了盡量準確地個性化推薦 twitter 用戶。
3、Rank可以參考的變量
這個需求要多少個變量來計算呢?我姑且列出一些供參考的老外統計方式:
1:Ryo Chijiiwa的 TwitterRank (ZDNet、Mashable都給出了正面的評價)。
2:可以統計你有多少時間浪費在 Twitter 上的 Tweetwasters 。
3:可以給出某一個地區Twitter用戶排名的 Twitterholic (只是根據Twitter中你設置的Location字段匯總的,排名因素是你的Followers和Friends數量)。
4:Twitalyzer 給出的一個用戶的五項指標。
5:twellow或wefollow對一個用戶的分類和標簽,假如有的話。
4、Rank可能涉及的變量
據此,可以總結出一個公式,來幫你匹配到值得你follow的最有趣的中國Twitter用戶。
變量A : 仿照 Tweetwasters 給出的 your total tweets*30 seconds/per tweet ,用戶消耗在Twitter上的時間。
變量B: 用戶的 TwitterRank 數值,Float類型。
變量C : 用戶的 followers 數量;
變量D : 用戶的 friends 數量;
變量E : 用戶被 retweet 的數量;
變量F : 用戶被人提及的次數;
變量G : 用戶的Location。系統應該自動映射不同的Location名字為一個地名。譬如,映射“北京”和“Beijing,china”為“Beijing”。
變量H : 用戶發言頻率,即 your total tweets/timespan your account joined 。
變量I : 用戶 retweet 他人的次數。
5、公式
略。
6、mashup一下
看了上面列出的變量,你就知道,這注定是一個 mashup 應用,因為它所引用的數據都來自于其他站點,包括twitter。
#附錄A:
疑問1:
是否必須引入自然語言處理來判別Twitter用戶的軟分類呢?即判斷用戶的發言百分之多少科技成分、多少娛樂成分等等。而不只是像 twellow 一樣只根據用戶Profile來計算分類。
這么做的好處:
可以按照分類目錄尋找有趣用戶;
更容易基于某一個給定用戶推薦相似分類的用戶群。
壞處是:
一條Tweet字數太少。分類未必會準。
疑問2:
是針對每一個發言做分類判別,還是針對所有發言呢?
需要測試看看。
疑問3:
需要對兩兩用戶進行文本相似性計算嗎?
不用這么復雜吧?
鄭昀@玩聚銳推榜 20090222 (follow @zhengyun)
浙公網安備 33010602011771號