ner任務中subword對tag序列的影響
https://tianchi.aliyun.com/forum/post/336310
由于標注數據通常是在word級別進行標注的,既然word還會被切分成subtokens,那么意味著我們還需要對標注數據進行subtokens的對齊。同時,由于預訓練模型輸入格式的要求,往往還需要加上一些特殊符號比如: [CLS] 和 [SEP]。
tokenizer有一個word_ids方法可以幫助我們解決這個問題。
https://tianchi.aliyun.com/forum/post/336310
由于標注數據通常是在word級別進行標注的,既然word還會被切分成subtokens,那么意味著我們還需要對標注數據進行subtokens的對齊。同時,由于預訓練模型輸入格式的要求,往往還需要加上一些特殊符號比如: [CLS] 和 [SEP]。
tokenizer有一個word_ids方法可以幫助我們解決這個問題。