【PTM】ALBERT：自监督学习的轻量级 BERT_albert: 轻量级bert embeding 矩阵分解

作者：思考机器7 | 2024-01-30 14:53:57

踩

albert: 轻量级bert embeding 矩阵分解

今天阅读的是 Google 同学 2019 年的论文《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》。

我们知道模型效果会随着模型深度的增加得到提升，然而模型深度的增加也会使得训练变得更困难，为了解决这个问题，Google 的同学提出了一个轻量级的 BERT：ALBERT，参数比 BERT-large 更少，且效果更好。

1.Introduction

通常来说，模型深度与模型效果成正比，但是模型越深也会带来动则数亿甚至数十亿的参数量，这就对计算内存有了一定的要求。而在分布式训练中，通信开销与参数也成正比，所以其对训练速度也产生了显著的影响。

目前已有的解决方案要么是并行化，要么是内存管理，但是都没有解决通信开销，即降低模型本身的参数。

在本文，作者设计一种轻量级的 Bert，并取名为 ALBERT（A Lite BERT），ALBERT 的参数比传统的 BERT 要少得多，有效的解决了模型通信开销的问题。

ALBERT 提出了两种降低参数的技术，包括 factorized embedding parameterization 和 cross-layer parameter sharing。前者是将 Embedding 参数矩阵分解为两个小矩阵，后者是跨层的参数共享。

除了降低参数外，为了提高性能，作者还引入了一种自监督的句子预测目标（sentence-order prediction，SOP），主要用来关注句子间的连贯性，旨在解决 BERT 中 next sentence prediction（NSP）的无效性问题。

最终 ALBERT 比 BERT-large 参数更少，效果更好，并在多个 NLP 任务中刷榜。

ALBERT 架构的主干和 BERT 类似，都使用了基于 GELU 的非线性激活函数的 Transformer。但是其分别在两个地方减少了参数量。

以下图为例可以看到模型的参数主要集中在两块，一块是 Token embedding projection block，另一块是 Attention feed-forward block，前者占有 20% 的参数量，后者占有 80% 的参数量。

我们先来看 Token embedding projection 模块。

在 BERT 中，Token Embedding 的参数矩阵大小为 $\times H)$ ，其中 V 表示词汇表长度，H 为隐藏层大小。即：

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/article/detail/47020