当前位置:   article > 正文

huggingface Tokenizers 官网文档学习:分词算法分类与五个子词级分词算法_tokenize官方文档

tokenize官方文档

一、前言

学习huggingface tokenizers 库。首先介绍三大类分词算法:词级、字符级、子词级算法;然后介绍五种常用的子词级(subword )算法:BPE、BBPE、WordPiece、Unigram、SentencePiece。

二、常用分词算法大类:词级、字符级、子词级

词表通常在模型预训练语料库上训练而成,包括不同的分词方式,例如对 “Don’t you love

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Monodyee/article/detail/281449
推荐阅读
相关标签