赞
踩
学习huggingface tokenizers 库。首先介绍三大类分词算法:词级、字符级、子词级算法;然后介绍五种常用的子词级(subword )算法:BPE、BBPE、WordPiece、Unigram、SentencePiece。
词表通常在模型预训练语料库上训练而成,包括不同的分词方式,例如对 “Don’t you love