<output id="qn6qe"></output>

    1. <output id="qn6qe"><tt id="qn6qe"></tt></output>
    2. <strike id="qn6qe"></strike>

      亚洲 日本 欧洲 欧美 视频,日韩中文字幕有码av,一本一道av中文字幕无码,国产线播放免费人成视频播放,人妻少妇偷人无码视频,日夜啪啪一区二区三区,国产尤物精品自在拍视频首页,久热这里只有精品12

      短文本合并重復(fù)(去重)的簡單有效做法

      短文本合并重復(fù)(去重)的簡單有效做法

      2012/6/12

      不大合適的SimHash

      前些日子看了Charikar SimHash的介紹《Simhash算法原理和網(wǎng)頁查重應(yīng)用》,核心思想是用一個f位的hash值來表示文件的特征值,然后使用hash值之間的Hamming距離來衡量相似性。輸入的是一個文檔的特征集合,輸出的是f位的二進(jìn)制數(shù)S。

      于是用來測試短文本(長度在8個中文字符~45個中文字符之間)相似性,做法很簡單:

      1.將短文本做分詞,得到分詞數(shù)組,數(shù)組每一個元素都轉(zhuǎn)為hash字符串。

      2.利用simhash算法來計算分詞數(shù)組的simhash值。

      3.利用simhash的similarity算法計算simhash1和simhash2的相似度。

      這種做法的缺點(diǎn)是:

      1.誤判率高。

      如下圖所示,

       http://images.cnblogs.com/cnblogs_com/zhengyun_ustc/255879/o_Simhash%E8%BF%91%E4%BC%BC%E6%9F%A5%E9%87%8D%E7%B2%BE%E5%BA%A6%E5%B9%B6%E4%B8%8D%E9%AB%98.png

      SimHash可能不適合做這種短標(biāo)題的重復(fù)度判斷,雖然SimHash在空間消耗和計算復(fù)雜性方面相對Shingle和BloomFilter占優(yōu)

       

      介紹一下2009年2月份我們做Twitter銳推榜時是如何做的

      Twitter中對于熱門事件的中文表達(dá)多種多樣,轉(zhuǎn)發(fā)時又往往會追加很多格式的各種內(nèi)容,造成了相似內(nèi)容的短文本的信息指紋不同,在這種情況下,段國成認(rèn)為需要先為短文本抽取標(biāo)簽,再通過標(biāo)簽來計算相似度進(jìn)行銳推合并。

      1.短文本抽取標(biāo)簽的方法:

      1.1. 剔除所有英文、數(shù)字、標(biāo)點(diǎn)字符;

      1.2. 剔除所有Twitter用戶名;

      1.3.分詞,并標(biāo)注詞性,僅保留實體詞性,如名詞、動詞;(技巧一?。?/p>

      1.4.過濾掉常用實體詞(常用實體詞是通過對歷史銳推訓(xùn)練而得,即建立自己的停止詞表);(技巧二?。?/p>

      1.5.計算保留實體詞的詞頻,并以此為權(quán)重,選擇權(quán)重大的詞語作為標(biāo)簽;

      1.6.標(biāo)簽數(shù)組長度大于一個閾值(如3),才認(rèn)為是有信息量的銳推,否則忽略。(技巧三?。?/p>

       

      2.合并相似短文本(即我們所說的Retweet)方法:

      2.1.以每個標(biāo)簽作為Shingle特征(即核心思想還是“一個數(shù)據(jù)段分成若干Shingle,每個Shingle計算出一個hash值,然后組成一個以hash值為元素的數(shù)組,以此作為特征值或叫信息指紋來表示這個數(shù)據(jù)段”);

      2.2.以網(wǎng)頁去重領(lǐng)域中改進(jìn)的Shingle方法來進(jìn)行計算近期內(nèi)(目的:縮小計算范圍)銳推的相似度(Shingle算法的核心思想是將文本相似性問題轉(zhuǎn)換為集合的相似性問題,改進(jìn)的Shingle方法的時間復(fù)雜度近似于線性);

      2.3.對相似程度大于一定閾值的、不同信息指紋的熱門銳推,再次掃描出來,將它們的熱度進(jìn)行合并。

       

      以上結(jié)果就構(gòu)成了 @rtmeme 的運(yùn)算機(jī)制。它特別適合處理十幾個、幾十個漢字的短文本合并重復(fù),適用于微博領(lǐng)域。

       

      也看到有人這么做:先Shingle再SimHash,不知道是否適合海量短文本合并重復(fù),回頭試試看。

      @鄭昀 于北京

       

       

      推薦閱讀:

      1、

      『我認(rèn)為騰訊目前的O2O產(chǎn)品其實是沒任何借鑒意義的,因為真的做得比較差。但我們也有一點(diǎn)做好的決心?!员M管我們在局部解決了閉環(huán)的問題,但實際上整個O2O的閉環(huán)仍然是遙遙無期的事情。』——《戴志康:讓我焦躁并痛苦著的O2O》http://t.cn/zOFL5Cc

      2、

      #O2O是個偽概念#:知乎O2O系列問答:http://t.cn/SzuEjr ;清科投資集團(tuán)對O2O的解讀:http://t.cn/zOgcikN ;黃紹麟:O2O和無線電子商務(wù)是偽概念 http://t.cn/zOfodfZ

      3、

      推薦閱讀:『而Google的#simhash#算法產(chǎn)生的簽名,可以用來比較原始內(nèi)容的相似度時,便很想了解這種神奇的算法的原理。出人意料,這個算法并不深奧,其思想是非常清澈美妙的?!弧禨imhash算法原理和網(wǎng)頁查重應(yīng)用》http://t.cn/zOrhqUb

      4、

      舊文推薦閱讀:『我的團(tuán)長我的團(tuán)中,學(xué)生李梁對龍文章說,我相信你們能戰(zhàn)勝日本人,但問題仍然存在。李鴻章們不遺余力地修鐵路、辦實業(yè),但問題依然存在。 器物上的改變是不會解決問題的?!?a title="http://www.rzrgm.cn/zhengyun_ustc/archive/2009/03/16/change.html" target="_blank" rel="noopener nofollow">http://t.cn/zOlg0Kg

       

      贈圖一枚:

      http://ww4.sinaimg.cn/large/70a90346gw1dtjk9sv096j.jpg  

      posted @ 2012-06-12 18:05  老兵筆記  閱讀(17029)  評論(0)    收藏  舉報
      主站蜘蛛池模板: 亚洲欧洲一区二区综合精品| 国产精品中文字幕视频| 亚洲精品无码在线观看| 亚洲少妇人妻无码视频| 滨海县| 啦啦啦视频在线日韩精品| 亚洲精品色哟哟一区二区| 成人3d动漫一区二区三区| 日韩中文字幕人妻一区| 国产精品小视频一区二页| 成年在线观看免费人视频| 国产偷国产偷亚洲清高网站 | 精品亚洲欧美无人区乱码| 横山县| 久久国产精品伊人青青草| 四虎成人在线观看免费| 日韩国产欧美精品在线| 国产成年码av片在线观看| 蜜桃av亚洲第一区二区| 五月综合婷婷开心综合婷婷| 国产精品中文字幕综合| 大地资源高清免费观看| 欧美伦费免费全部午夜最新| 上犹县| 国产精品偷伦费观看一次| 久久综合九色综合欧洲98| 翁源县| 国产精品亚洲аv无码播放| 久久亚洲2019中文字幕| 久久av无码精品人妻系列试探| 精品一区二区三区免费视频| 无码日韩精品一区二区三区免费| 亚洲a∨无码一区二区三区| 少妇精品视频一码二码三| 国产精品国产三级国快看| 人妻激情偷乱视频一区二区三区| 中文字幕在线国产精品| 中文字幕无码视频手机免费看 | 国产精品一品二区三四区| 男人扒开女人内裤强吻桶进去| 一本久道中文无码字幕av|