赞
踩
PreTrainedTokenizerFast 依赖于 Tokenizers 库。从 Tokenizers 库获得的tokenizers可以非常简单地加载到Transformers。
在详细讨论之前,让我们先用几行代码创建一个虚拟的tokenizer:
from tokenizers import Tokenizer
from tokenizers.models import BPE
from tokenizers.trainers import BpeTrainer
from tokenizers.pre_tokenizers import Whitespace
tokenizer = Tokenizer(BPE(unk_token="[UNK]"))
trainer = BpeTrainer(special_tokens=["[UNK]", "[CLS]", "[SEP]", "[PAD]", "[MASK]"])
tokenizer.pre_tokenizer = Whitespace()
files = [...]
tokenizer.train(files, trainer)
我们现在有一个针对我们定义的文件的训练器。我们可以继续在运行时中使用它,或者将它保存到 JSON 文件中以便将来重用。
让我们看看如何在Transformers库中利用这个 tokenizer 对象。通过接受实例化的 tokenizer 对象作为参数,PreTrainedTokenizerFast 类允许简单的实例化:
from transformers import PreTrainedTokenizerFast
fast_tokenizer = PreTrainedTokenizerFast(tokenizer_object=tokenizer)
这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。
为了从 JSON 文件中加载 tokenizer,让我们首先保存 tokenizer:
tokenizer.save("tokenizer.json")
我们保存这个文件的路径可以使用 tokenizer_file 参数传递给 PreTrainedTokenizerFast 初始化方法:
from transformers import PreTrainedTokenizerFast
fast_tokenizer = PreTrainedTokenizerFast(tokenizer_file="tokenizer.json")
这个对象现在可以用于所有方法共享的Transformerstokenizer!更多信息请访问 tokenizer 页面。
本文是抱抱脸(Hugging Face)教程中文翻译,仅学习使用
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。