当前位置:   article > 正文

基于统计的语言模型-n元语法模型

n元语法模型

n-gram模型概述

1、n-gram模型,也称为N元语法模型,是一种基于统计语言模型的算法,n表示n个词语,n元语法模型通过n个词语的概率判断句子的结构。

2、n元语法模型的算法思想:将文本里面的内容按照字节进行大小为N的滑动窗口操作,形成了长度时N的字节片段序列,每个字节片段称为gram。对所有gram的出现频度进行统计,并且按照事先设定好的阈值进行过滤,形成关键gram列表,也就是这个文本的向量特征空间,列表中的每一种gram就是一个特征向量维度。
在这里插入图片描述

3、该模型基于马尔科夫假设,第N个词的出现只与前面N-1个词相关,而与其它任何词都不相关,整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是Bi-Gram(二元语法模型)和Tri-Gram(三元语法模型)。

4、n-gram模型常见的应用场景:输入法的提示、搜索引擎等

n-gram原理

1、马尔科夫假设
给定时间线上有一串事件顺序发生,假设每个事件的发生概率只取决于前1个或t (t >1)个事件,那么这串事件构成的因果链被称作马尔可夫链。在语言模型中,第i个事件指的是w,作为第i个单词出现。也就是说,每个单词出现的概率只取决于前1个或t个单词:
在这里插入图片描述
举例,当n=2时,为二元语法模型(Bi-Gram),即每个单词出现的概率只与前1个单词有关,根据公式计算整个句子出现的概率P(S) 为句子中每个单词出现概率的乘积:
P ( S ) = P ( w 1 , w 2 , … , w n ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 2 ) … P ( w n ∣ w n − 1 ) P(S) = P(w_1,w_2, \dots,w_n) = P(w_1)P(w_2|w_1)P(w_3|w_2)\dots P(w_n|w_{n-1}) P(S)=P(w1,w2,,wn)=P(w1)P(w2w1)P(w3w2)P(wnwn1)
对于句子“今天天气晴朗”,利用Bi-gram时,该句子的概率如下:
P ( 今 天 天 气 晴 朗 ) = P ( 今 ) P ( 天 ∣ 今 ) P ( 天 ∣ 天 ) P ( 气 ∣ 天 ) P ( 晴 ∣ 天 ) P ( 朗 ∣ 晴 ) P(今天天气晴朗) = P(今)P(天|今)P(天|天)P(气|天)P(晴|天)P(朗|晴) P()=P()P()P()P()P()P()

若n=3时,为三元语法模型(Tri-gram),即每个单词出现的概率只与前两个(n-1)单词有关,根据公式计算整个句子出现的概率P(S) 为句子中每个单词出现概率的乘积:
P ( S ) = P ( w 1 , w 2 , … , w n ) = P ( w 1 ) P ( w 2 ∣ w 1 ) P ( w 3 ∣ w 2 w 1 ) … P ( w n ∣ w n − 2 w n − 1 ) P(S) = P(w_1,w_2, \dots,w_n) = P(w_1)P(w_2|w_1)P(w_3|w_2w_1)\dots P(w_n|w_{n-2}w_{n-1}) P(S)=P(w1,w2,,wn)=P(w1)P(w2w1)P(w3w2w1)P(wnwn2wn1)
则对于句子“今天天气晴朗”,利用Tri-gram时,该句子的概率如下:
P ( 今 天 天 气 晴 朗 ) = P ( 今 ) P ( 天 ∣ 今 ) P ( 天 ∣ 天 今 ) P ( 气 ∣ 天 天 ) P ( 晴 ∣ 气 天 ) P ( 朗 ∣ 晴 气 ) P(今天天气晴朗) = P(今)P(天|今)P(天|天今)P(气|天天)P(晴|气天)P(朗|晴气) P()=P()P()P()P()P()P()

2、利用n-gram计算句子出现的概率
当n>1时,为了使句首词的条件概率有意义,需要给原序列加上一个或多个起始符 ,即 w 0 = < B O S > w_0=<BOS> w0=<BOS>。可以说起始符的作用就是为了表征句首词出现的条件概率。
同理,为了使句尾的条件概率有意义,也需要加上一个或多个结束符。
在这里插入图片描述
在这里插入图片描述
对于Bi-gram模型而言, P ( w i ∣ w i − 1 ) P(w_i|w_{i-1}) P(wiwi1)可以使用极大似然估计得到,即:
P ( w i ∣ w i − 1 ) = c ( w i − 1 , w i ) ∑ w i c ( w i − 1 , w i ) = c ( w i − 1 , w i ) c ( w i − 1 ) P(w_i|w_{i-1}) = \frac{c(w_{i-1},w_i)}{\sum_{w_i}c(w_{i-1},w_i)} = \frac{c(w_{i-1},w_i)}{c(w_{i-1})} P(wiwi1)=wic(wi1,wi)c(wi1,wi)=c(wi1)c(wi1,wi)
其中,c()表示子序列在数据集中出现的次数。
对于n-gram模型而言,条件概率的计算方法为:
P ( w i ∣ w 1 , … , w i − 1 ) = c ( w 1 , w 2 , … , w i ) ∑ w c ( w 1 , w 2 , … , w i , w ) = c ( w 1 , w 2 , … , w i ) c ( w 1 , w 2 , … , w i − 1 ) P(w_i|w_1,\dots,w_{i-1}) = \frac{c(w_1,w_2,\dots,w_i)}{\sum_wc(w_1,w_2,\dots,w_i,w)} \\ = \frac{c(w_1,w_2,\dots,w_i)}{c(w_1,w_2,\dots,w_{i-1})} P(wiw1,,wi1)=wc(w1,w2,,wi,w)c(w1,w2,,wi)=c(w1,w2,,wi1)c(w1,w2,,wi)

公式有些难以理解,举个例子。
假设一个语料库有三个句子‘今天天气晴朗’,‘今天是个好日子’,‘天气阴’
统计词频如下:

总共
2421111111116

那使用Bi-gram计算‘今天天气晴’的概率为:
P ( 今 天 天 气 晴 朗 ) = P ( 今 ∣ < B O S > ) ⋅ P ( 天 ∣ 今 ) ⋅ P ( 天 ∣ 天 ) ⋅ P ( 气 ∣ 天 ) ⋅ P ( 晴 ∣ 气 ) ⋅ P ( 朗 ∣ 晴 ) ⋅ P ( < E O S > ∣ 朗 ) = c ( < B O S > , 今 ) c ( < B O S > ) ⋅ c ( 今 , 天 ) c ( 今 ) ⋅ c ( 天 , 天 ) c ( 天 ) ⋅ c ( 天 , 气 ) c ( 天 ) ⋅ c ( 气 , 晴 ) c ( 气 ) ⋅ c ( 晴 , 朗 ) c ( 晴 ) ⋅ c ( 朗 , < E O S > ) c ( 朗 ) = 2 3 × 2 2 × 1 4 × 2 4 × 1 2 × 1 1 × 1 1 = 1 24

P()=P(|<BOS>)·P(|)·P(|)·P(|)·P(|)·P(|)·P(<EOS>|)=c(<BOS>,)c(<BOS>)·c(,)c()·c()c()·c(,)c()·c(,)c()·c(,)c()·c(,<EOS>)c()=23×22×14×24×12×11×11=124
P()=P(<BOS>)P()P()P()P()P()P(<EOS>)=c(<BOS>)c(<BOS>,)c()c(,)c()c()c()c(,)c()c(,)c()c(,)c()c(,<EOS>)=32×22×41×42×21×11×11=241

P ( 今 天 是 个 好 日 子 ) = P ( 今 ∣ < B O S > ) ⋅ P ( 天 ∣ 今 ) ⋅ P ( 是 ∣ 天 ) ⋅ P ( 个 ∣ 是 ) ⋅ P ( 好 ∣ 个 ) ⋅ P ( 日 ∣ 好 ) ⋅ P ( 子 ∣ 日 ) ⋅ P ( < E O S > ∣ 子 ) = c ( < B O S > , 今 ) c ( < B O S > ) ⋅ c ( 今 , 天 ) c ( 今 ) ⋅ c ( 天 , 是 ) c ( 天 ) ⋅ c ( 是 , 个 ) c ( 是 ) ⋅ c ( 个 , 好 ) c ( 个 ) ⋅ c ( 好 , 日 ) c ( 好 ) ⋅ c ( 日 , 子 ) c ( 日 ) ⋅ c ( 子 , < E O S > ) c ( 子 ) = 2 3 × 2 2 × 1 4 × 1 1 × 1 1 × 1 1 × 1 1 × 1 1 = 1 6

P()=P(|<BOS>)·P(|)·P(|)·P(|)·P(|)·P(|)·P(|)·P(<EOS>|)=c(<BOS>,)c(<BOS>)·c(,)c()·c()c()·c(,)c()·c(,)c()·c(,)c()·c(,)c()·c(<EOS>)c()=23×22×14×11×11×11×11×11=16
P()=P(<BOS>)P()P()P()P()P()P()P(<EOS>)=c(<BOS>)c(<BOS>,)c()c(,)c()c()c()c(,)c()c(,)c()c(,)c()c(,)c()c(<EOS>)=32×22×41×11×11×11×11×11=61

P ( 天 气 阴 ) = P ( 天 ∣ < B O S > ) ⋅ P ( 气 ∣ 天 ) ⋅ P ( 阴 ∣ 气 ) ⋅ P ( < E O S > ∣ 阴 ) = c ( < B O S > , 天 ) c ( < B O S > ) ⋅ c ( 天 , 气 ) c ( 天 ) ⋅ c ( 气 , 阴 ) c ( 气 ) ⋅ c ( 阴 , < E O S > ) c ( 阴 ) = 4 3 × 2 4 × 1 2 × 1 1 = 1 3

P()=P(|<BOS>)·P(|)·P(|)·P(<EOS>|)=c(<BOS>,)c(<BOS>)·c(,)c()·c()c()·c(<EOS>)c()=43×24×12×11=13
P()=P(<BOS>)P()P()P(<EOS>)=c(<BOS>)c(<BOS>,)c()c(,)c()c()c()c(<EOS>)=34×42×21×11=31

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/347843
推荐阅读
相关标签
  

闽ICP备14008679号