Transformers(Huggingface)包调用Roberta需要修改预训练文件名称_huggingface roberta

作者：小丑西瓜9 | 2024-03-16 12:40:17

踩

huggingface roberta

1 背景

最近准备毕设，想使用Roberta预训练模型，于是打算使用Transformers的from_pretrained方法简单粗暴的导入一下，但是网上开源的模型下载下来之后，发现和之前的bert预训练模型给的文件有所出入，本文简单说明如何修改文件名，以及如何使用加载语句。
（使用系统：CentOS Linux release 7.6）
下载Roberta预训练文件地址：
- 模型卡片入口（可以获取config.json）：roberta-base，roberta-large
- 如下图所示，可以在huggingface模型卡片页面获取对应的预训练模型和配置文件。
- 其他位置： Roberta github仓库

2 修改说明

先看一下修改结果：
- 我新建了一个叫pretrained_model的文件夹，文件夹下有roberta_base文件夹存放解压的预训练模型和通过1方式下载好的config.json文件。
调用方式：

from transformers import RobertaTokenizer, RobertaModel, RobertaConfig

tokenizer = RobertaTokenizer.from_pretrained("pretrained_model/roberta_base/")
config = RobertaConfig.from_pretrained("pretrained_model/roberta_base/")
model = RobertaModel.from_pretrained("pretrained_model/roberta_base/")
1
2
3
4
5

其他说明
- 推荐直接下载预训练模型，而不推荐使用自带原生下载的方式，即RobertaTokenizer.from_pretrained("roberta_base/")的方式使用，这样虽然保证百分之百可以使用，但是国内的下载速度着实着急，其次，这种方式下载文件的存储名称是序列码，如果下载多个预训练模型想去文件中定位相应的模型是很困难的（可以通过下载时间来判断）。所以一般都是下好预训练模型，然后直接把文件路径放到from_pretrained里。
- 在加载前需要统一模型文件名。比如bin文件都得叫pytorch_model.bin，配置文件都得叫config.json，词汇文件都得叫vocab.txt或json。这个是因为源码中的判断要求，所以别问，问就是改名。
- Roberta预训练模型不按套路出牌，稍微有点不同。需要单独下载config文件，并且多了一个merges.txt，和vocab.json配合使用。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小丑西瓜9/article/detail/249538