基于统计的语言模型-n元语法模型

作者：笔触狂放9 | 2024-04-01 07:51:03

踩

n元语法模型

n-gram模型概述

1、n-gram模型，也称为N元语法模型，是一种基于统计语言模型的算法，n表示n个词语，n元语法模型通过n个词语的概率判断句子的结构。

2、n元语法模型的算法思想：将文本里面的内容按照字节进行大小为N的滑动窗口操作，形成了长度时N的字节片段序列，每个字节片段称为gram。对所有gram的出现频度进行统计，并且按照事先设定好的阈值进行过滤，形成关键gram列表，也就是这个文本的向量特征空间，列表中的每一种gram就是一个特征向量维度。
在这里插入图片描述

3、该模型基于马尔科夫假设，第N个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积。这些概率可以通过直接从语料中统计N个词同时出现的次数得到。常用的是Bi-Gram（二元语法模型）和Tri-Gram（三元语法模型）。

4、n-gram模型常见的应用场景：输入法的提示、搜索引擎等

n-gram原理

1、马尔科夫假设
给定时间线上有一串事件顺序发生，假设每个事件的发生概率只取决于前1个或t (t >1)个事件，那么这串事件构成的因果链被称作马尔可夫链。在语言模型中，第i个事件指的是w,作为第i个单词出现。也就是说，每个单词出现的概率只取决于前1个或t个单词:
在这里插入图片描述
举例，当n=2时，为二元语法模型（Bi-Gram），即每个单词出现的概率只与前1个单词有关，根据公式计算整个句子出现的概率P(S) 为句子中每个单词出现概率的乘积：
$P(w_1,w_2, \dots,w_n) = P(w_1)P(w_2|w_1)P(w_3|w_2)\dots P(w_n|w_{n-1})$
对于句子“今天天气晴朗”，利用Bi-gram时，该句子的概率如下：
$P (今天天气晴朗) = P (今) P (天 ∣ 今) P (天 ∣ 天) P (气 ∣ 天) P (晴 ∣ 天) P (朗 ∣ 晴)$

若n=3时，为三元语法模型（Tri-gram），即每个单词出现的概率只与前两个(n-1)单词有关，根据公式计算整个句子出现的概率P(S) 为句子中每个单词出现概率的乘积：
$P(w_1,w_2, \dots,w_n) = P(w_1)P(w_2|w_1)P(w_3|w_2w_1)\dots P(w_n|w_{n-2}w_{n-1})$
则对于句子“今天天气晴朗”，利用Tri-gram时，该句子的概率如下：
$P (今天天气晴朗) = P (今) P (天 ∣ 今) P (天 ∣ 天今) P (气 ∣ 天天) P (晴 ∣ 气天) P (朗 ∣ 晴气)$

2、利用n-gram计算句子出现的概率
当n>1时，为了使句首词的条件概率有意义，需要给原序列加上一个或多个起始符，即 $w_0=<BOS>$ 。可以说起始符的作用就是为了表征句首词出现的条件概率。
同理，为了使句尾的条件概率有意义，也需要加上一个或多个结束符。
在这里插入图片描述

对于Bi-gram模型而言， $P(w_i|w_{i-1})$ 可以使用极大似然估计得到，即：
$P(w_i|w_{i-1}) = \frac{c(w_{i-1},w_i)}{\sum_{w_i}c(w_{i-1},w_i)} = \frac{c(w_{i-1},w_i)}{c(w_{i-1})}$
其中，c()表示子序列在数据集中出现的次数。
对于n-gram模型而言，条件概率的计算方法为：
$P(w_i|w_1,\dots,w_{i-1}) = \frac{c(w_1,w_2,\dots,w_i)}{\sum_wc(w_1,w_2,\dots,w_i,w)} \\ = \frac{c(w_1,w_2,\dots,w_i)}{c(w_1,w_2,\dots,w_{i-1})}$

公式有些难以理解，举个例子。
假设一个语料库有三个句子‘今天天气晴朗’，‘今天是个好日子’，‘天气阴’
统计词频如下：

今	天	气	晴	朗	是	个	好	日	子	阴	总共
2	4	2	1	1	1	1	1	1	1	1	16

那使用Bi-gram计算‘今天天气晴’的概率为：

\begin{aligned} P (今 天 天 气 晴 朗) & = P (今 | < B O S >) \cdot P (天 | 今) \cdot P (天 | 天) \cdot P (气 | 天) \cdot P (晴 | 气) \cdot P (朗 | 晴) \cdot P (< E O S > | 朗) \\ = \frac{c (< B O S >, 今)}{c (< B O S >)} \cdot \frac{c (今, 天)}{c (今)} \cdot \frac{c (天 ， 天)}{c (天)} \cdot \frac{c (天, 气)}{c (天)} \cdot \frac{c (气, 晴)}{c (气)} \cdot \frac{c (晴, 朗)}{c (晴)} \cdot \frac{c (朗, < E O S >)}{c (朗)} \\ = \frac{2}{3} \times \frac{2}{2} \times \frac{1}{4} \times \frac{2}{4} \times \frac{1}{2} \times \frac{1}{1} \times \frac{1}{1} \\ = \frac{1}{24} \end{aligned}

$\begin{aligned} P(今天天气晴朗) &= P(今|<BOS>)·P(天|今)·P(天|天)·P(气|天)·P(晴|气)·P(朗|晴)·P(<EOS>|朗) \\ & = \frac{c(<BOS>,今)}{c(<BOS>)} · \frac{c(今,天)}{c(今)}· \frac{c(天，天)}{c(天)} ·\frac{c(天,气)}{c(天)}·\frac{c(气,晴)}{c(气)}·\frac{c(晴,朗)}{c(晴)}·\frac{c(朗,<EOS>)}{c(朗)} \\ & =\frac{2}{3} × \frac{2}{2} × \frac{1}{4} × \frac{2}{4}× \frac{1}{2} × \frac{1}{1} × \frac{1}{1} \\ &= \frac{1}{24} \end{aligned}$

P (今 天 天 气 晴 朗) = P (今 ∣ < B O S >) \cdot P (天 ∣ 今) \cdot P (天 ∣ 天) \cdot P (气 ∣ 天) \cdot P (晴 ∣ 气) \cdot P (朗 ∣ 晴) \cdot P (< E O S > ∣ 朗) = \frac{c ( < B O S > , 今 )}{c ( < B O S > )} \cdot \frac{c ( 今 , 天 )}{c ( 今 )} \cdot \frac{c ( 天 ， 天 )}{c ( 天 )} \cdot \frac{c ( 天 , 气 )}{c ( 天 )} \cdot \frac{c ( 气 , 晴 )}{c ( 气 )} \cdot \frac{c ( 晴 , 朗 )}{c ( 晴 )} \cdot \frac{c ( 朗 , < E O S > )}{c ( 朗 )} = \frac{2}{3} \times \frac{2}{2} \times \frac{1}{4} \times \frac{2}{4} \times \frac{1}{2} \times \frac{1}{1} \times \frac{1}{1} = \frac{1}{2 4}

\begin{aligned} P (今 天 是 个 好 日 子) & = P (今 | < B O S >) \cdot P (天 | 今) \cdot P (是 | 天) \cdot P (个 | 是) \cdot P (好 | 个) \cdot P (日 | 好) \cdot P (子 | 日) \cdot P (< E O S > | 子) \\ = \frac{c (< B O S >, 今)}{c (< B O S >)} \cdot \frac{c (今, 天)}{c (今)} \cdot \frac{c (天 ， 是)}{c (天)} \cdot \frac{c (是, 个)}{c (是)} \cdot \frac{c (个, 好)}{c (个)} \cdot \frac{c (好, 日)}{c (好)} \cdot \frac{c (日, 子)}{c (日)} \cdot \frac{c (子 ， < E O S >)}{c (子)} \\ = \frac{2}{3} \times \frac{2}{2} \times \frac{1}{4} \times \frac{1}{1} \times \frac{1}{1} \times \frac{1}{1} \times \frac{1}{1} \times \frac{1}{1} \\ = \frac{1}{6} \end{aligned}

$\begin{aligned} P(今天是个好日子) &= P(今|<BOS>)·P(天|今)·P(是|天)·P(个|是)·P(好|个)·P(日|好)·P(子|日)·P(<EOS>|子) \\ & = \frac{c(<BOS>,今)}{c(<BOS>)} · \frac{c(今,天)}{c(今)}· \frac{c(天，是)}{c(天)} ·\frac{c(是,个)}{c(是)}·\frac{c(个,好)}{c(个)}·\frac{c(好,日)}{c(好)}·\frac{c(日,子)}{c(日)}·\frac{c(子，<EOS>)}{c(子)} \\ & = \frac{2}{3}× \frac{2}{2}× \frac{1}{4}× \frac{1}{1}× \frac{1}{1}× \frac{1}{1}× \frac{1}{1}× \frac{1}{1} \\ & = \frac{1}{6} \end{aligned}$

P (今 天 是 个 好 日 子) = P (今 ∣ < B O S >) \cdot P (天 ∣ 今) \cdot P (是 ∣ 天) \cdot P (个 ∣ 是) \cdot P (好 ∣ 个) \cdot P (日 ∣ 好) \cdot P (子 ∣ 日) \cdot P (< E O S > ∣ 子) = \frac{c ( < B O S > , 今 )}{c ( < B O S > )} \cdot \frac{c ( 今 , 天 )}{c ( 今 )} \cdot \frac{c ( 天 ， 是 )}{c ( 天 )} \cdot \frac{c ( 是 , 个 )}{c ( 是 )} \cdot \frac{c ( 个 , 好 )}{c ( 个 )} \cdot \frac{c ( 好 , 日 )}{c ( 好 )} \cdot \frac{c ( 日 , 子 )}{c ( 日 )} \cdot \frac{c ( 子 ， < E O S > )}{c ( 子 )} = \frac{2}{3} \times \frac{2}{2} \times \frac{1}{4} \times \frac{1}{1} \times \frac{1}{1} \times \frac{1}{1} \times \frac{1}{1} \times \frac{1}{1} = \frac{1}{6}

\begin{aligned} P (天 气 阴) & = P (天 | < B O S >) \cdot P (气 | 天) \cdot P (阴 | 气) \cdot P (< E O S > | 阴) \\ = \frac{c (< B O S >, 天)}{c (< B O S >)} \cdot \frac{c (天, 气)}{c (天)} \cdot \frac{c (气 ， 阴)}{c (气)} \cdot \frac{c (阴 ， < E O S >)}{c (阴)} \\ = \frac{4}{3} \times \frac{2}{4} \times \frac{1}{2} \times \frac{1}{1} \\ = \frac{1}{3} \end{aligned}

$\begin{aligned} P(天气阴) &= P(天|<BOS>)·P(气|天)·P(阴|气)·P(<EOS>|阴) \\ & = \frac{c(<BOS>,天)}{c(<BOS>)} · \frac{c(天,气)}{c(天)}· \frac{c(气，阴)}{c(气)} ·\frac{c(阴，<EOS>)}{c(阴)} \\ & = \frac{4}{3}× \frac{2}{4}× \frac{1}{2}× \frac{1}{1} \\ & = \frac{1}{3} \end{aligned}$

P (天 气 阴) = P (天 ∣ < B O S >) \cdot P (气 ∣ 天) \cdot P (阴 ∣ 气) \cdot P (< E O S > ∣ 阴) = \frac{c ( < B O S > , 天 )}{c ( < B O S > )} \cdot \frac{c ( 天 , 气 )}{c ( 天 )} \cdot \frac{c ( 气 ， 阴 )}{c ( 气 )} \cdot \frac{c ( 阴 ， < E O S > )}{c ( 阴 )} = \frac{4}{3} \times \frac{2}{4} \times \frac{1}{2} \times \frac{1}{1} = \frac{1}{3}

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/笔触狂放9/article/detail/347843