大型语言模型：RoBERTa — 一种稳健优化的 BERT 方法_roberta和bert

作者：木道寻08 | 2024-07-16 17:21:19

踩

roberta和bert

一、介绍

BERT模型的出现BERT模型带来了NLP的重大进展。 BERT 的架构源自 Transformer，它在各种下游任务上取得了最先进的结果：语言建模、下一句预测、问答、NER标记等。

尽管 BERT 性能出色，研究人员仍在继续尝试其配置，希望获得更好的指标。幸运的是，他们成功了，并提出了一种名为 RoBERTa 的新模型 - 鲁棒优化的 BERT 方法。

在本文中，我们将参考官方 RoBERTa 论文，其中包含有关模型的深入信息。简而言之，RoBERTa 对原始 BERT 模型进行了多项独立改进——包括架构在内的所有其他原则保持不变。本文将介绍和解释所有的进步。

从 BERT 的架构中我们记得，在预训练期间，BERT 通过尝试预测一定百分比的屏蔽标记来执行语言建模。原始实现的问题在于，为不同批次的给定文本序列选择的掩码标记有时是相同

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/木道寻08/article/detail/835405