摘要:
背景 提升產(chǎn)品體驗,節(jié)省用戶感知度。——想想,如果看到一堆相似性很高的新聞,對于用戶的留存會有很大的影響。 技術(shù)方案1、信息指紋算法 思路:為每個網(wǎng)頁計算出一組信息指紋(Fingerprint)。比較兩個網(wǎng)頁相同信息指紋數(shù)量,從而判斷內(nèi)容的重疊性。 步驟: 1)提取網(wǎng)頁正文信息特征(通常是一組詞), 閱讀全文
posted @ 2018-05-25 16:24
川山甲
閱讀(1091)
評論(0)
推薦(5)
浙公網(wǎng)安備 33010602011771號