[NLP]subword理解:BPE,WordPiece,ULM

构建词表是NLP任务中的一个基本要求,传统的方法是对各个句子进行分词,然后选取频率最高的N个词组成词表。但是这样的做法不可避免的会带来一些问题,如OOV问题,低频次/稀疏词的语义很难获取(因为没有训练 … Continue reading [NLP]subword理解:BPE,WordPiece,ULM