当前位置:   article > 正文

[论文笔记] [2003] A Neural Probabilistic Language Model_bengio论文神经网络语言模型

bengio论文神经网络语言模型

图灵奖获得者Bengio 03年的论文,虽然年代已经比较“久远”,但意义非凡。它的贡献在于提出了神经网络语言模型以及这个模型同时能学习词向量(word embedding),这为后来深度学习在解决NLP问题奠定了坚实的基础,并且这种训练词向量的方式为后来的研究提供了更广阔的思路。

在这之前的统计语言模型,比如n-gram,它们的缺陷在于:缺乏长期依赖,只考虑了前 n-1 个词;随着 n 的增大,参数空间呈指数增长;数据稀疏,难免会出现OOV问题;单纯基于词频统计,泛化能力差。

而关于词的向量空间表示在03年以前已经有了一些工作,比如熟知的one-hot,以及信息检索领域的共现矩阵(co-occurrence matrix)做SVD分解得到的词的特征向量,但它们存在的问题是one-hot的维度太大并且词向量之间没有关系,无法计算相似度,而SVD得到的词向量可解释性较差,而且SVD分解效率较差。

A Neural Model

本文设计的神经网络语言模型如下:

模型的输入层是将词映射成向量,相当于一个 1 × V 1 \times V 1×V 的 one-hot 向量乘以一个 V × D V \times D V×D 的向量 C C C得到一个 1 × D 1 \times D 1×D 的向量,再将 n-1 个词向量拼接在一起,得到一个 D ( n − 1 ) D(n-1) D(n1)的向量。隐藏层则是一个以tanh为激活函数的全连接层。输出层为一个全连接层,后面接一个softmax函数来生成概率分布,因为这里的语言模型是根据前 n-1 个词去预测下一个词,则可以看成一个多分类器,则得到下一个词的概率为 P ~ ( w t ∣ w t − 1 , . . . , w t − n + 1 ) = e y w t ∑ i e y i \tilde{P}(w_t|w_{t-1},...,w_{t-n+1})=\frac{e^{y_{w_t}}}{\sum_ie^{y_i}} P~(w

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Cpp五条/article/detail/344426?site
推荐阅读
相关标签
  

闽ICP备14008679号