自然語言處理(二) 語言模型
1、詞袋模型
認為詞語間相互獨立,失去詞語間的順序信息,相當于把詞放在一個袋子里。
2、N-gram模型
引入了詞與詞之間的順序。
這個N是一個超參數。
1、一般能用2-gram盡量用2-gram。
2、平時3-gram用的多。
3、n>=4的情況很少,在有特別多語料時可以嘗試到5-gram
認為詞語間相互獨立,失去詞語間的順序信息,相當于把詞放在一個袋子里。
引入了詞與詞之間的順序。
這個N是一個超參數。
1、一般能用2-gram盡量用2-gram。
2、平時3-gram用的多。
3、n>=4的情況很少,在有特別多語料時可以嘗試到5-gram