摘要:
最近在處理游戲敏感詞之類的東西,為了加強屏蔽處理,所以需要過濾掉字符串中的除漢字之外的是其他東西如數字,符號,英文字母等。 首先我查閱資料并寫了個函數: 示例:返回輸入字符串中漢字的個數: 這個函數的原理是ord($str)&0x80來判斷漢字 80對應的二進制代碼為1000 0000,最高位為一,
閱讀全文
摘要:
本文轉自淺析敏感詞過濾算法(C++),自己也在其基礎上根據自己的情況做了一點修改。 https://blog.csdn.net/u012755940/article/details/51689401?utm_source=app 為了提高查找效率,這里將敏感詞用樹形結構存儲,每個節點有一個map成員
閱讀全文
摘要:
最近需要給游戲做一個敏感詞新系統,我采用的方法是比較常用的DFA(確定有窮狀態機)算 法,先不講算法,而這種算法的實現需要一個相應的敏感詞庫。 我拿到了詞庫后發現詞庫中大概有8000+個詞,其中包括很多重復的,還有很多有著頭包含關 系的詞; 什么是頭包含詞呢? 看如下例子: 我們知道在DFA算法讀取
閱讀全文