抱抱脸（hugging face）教程-中文翻译-使用 Tokenizers 的 tokenizers_pretrainedtokenizerfast

作者：盐析白兔 | 2024-03-21 13:46:18

踩

pretrainedtokenizerfast

使用 Tokenizers 的 tokenizers

PreTrainedTokenizerFast 依赖于 Tokenizers 库。从 Tokenizers 库获得的tokenizers可以非常简单地加载到Transformers。

在详细讨论之前，让我们先用几行代码创建一个虚拟的tokenizer:

from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace

tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])

tokenizer.pre_tokenizer = Whitespace()
files = [...]
tokenizer.train(files, trainer)
1
2
3
4
5
6
7
8
9
10
11

我们现在有一个针对我们定义的文件的训练器。我们可以继续在运行时中使用它，或者将它保存到 JSON 文件中以便将来重用。

直接从 tokenizer 对象加载

让我们看看如何在Transformers库中利用这个 tokenizer 对象。通过接受实例化的 tokenizer 对象作为参数，PreTrainedTokenizerFast 类允许简单的实例化:

from transformers import PreTrainedTokenizerFast

fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
1
2
3

这个对象现在可以用于所有方法共享的Transformerstokenizer！更多信息请访问 tokenizer 页面。

从 JSON 文件加载

为了从 JSON 文件中加载 tokenizer，让我们首先保存 tokenizer:

tokenizer.save("tokenizer.json")
1

我们保存这个文件的路径可以使用 tokenizer_file 参数传递给 PreTrainedTokenizerFast 初始化方法:

from transformers import PreTrainedTokenizerFast

fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
1
2
3

这个对象现在可以用于所有方法共享的Transformerstokenizer！更多信息请访问 tokenizer 页面。

本文是抱抱脸（Hugging Face）教程中文翻译，仅学习使用

原文链接

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/281436