搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
Li_阴宅
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
在ubuntu20上安装和使用Docker_ubuntu20安装docker
2
Hive——sql查询_hive也使用sql语句查询吗
3
2024年【危险化学品经营单位安全管理人员】考试内容及危险化学品经营单位安全管理人员模拟考试_《危险化学品安全管理条例》规定,化学品安全技术说明书和化学品安全标签所载明的
4
opencv基础之高斯模糊_opencv高斯模糊
5
kubernetes(K8S)学习(六):K8S之Dashboard图形界面_kubernetes dashboard镜像网站
6
Pyspider 爬虫使用说明_pyspider启动
7
【速成之路】网页编程必会的Ajax——JSON_开发人员经常通过()方式利用ajax传递必要的信息给dom
8
【附源码】Python最热门最实用的8个Python爬虫项目源代码,可以不用但一定要知道!_爬虫代码
9
一键监控多台服务器磁盘使用情况的神奇脚本!_写脚本查看各个机台使用情况
10
异常处理与中断:ARM处理器的异常向量表与后端开发_arm的异常向量表为什么要放在0xffff0000
当前位置:
article
> 正文
斯坦福大学-自然语言处理入门 笔记 第十一课 最大熵模型与判别模型(2)_最大熵模型环境变量数据要统一分辨率吗
作者:Li_阴宅 | 2024-08-07 19:23:01
赞
踩
最大熵模型环境变量数据要统一分辨率吗
一、最大熵模型
1、模型介绍
基本思想:我们希望数据是均匀分布的,除非我们有其他的限制条件让给我们相信数据不是均匀分布的。均匀分布代表高熵(high entropy)。所以,最大熵模型的基本思想就是我们要找的分布是满足我们限制条件下,同时熵最高的分布。
熵:表示分布的不确定性的度量。就算公式如下:
举例而言:抛一枚硬币的熵如下图,横轴表示抛到正面的概率
特征限制:放到实际场景来考虑这个问题的话,我们所找的分布是在满足特征限制的情况下的最大熵分布。特征限制公式如下:
添加特征限制会导致:得到的分布有更低的最大熵,但是提升它对数据的最大似然(likelihood);使得分布离均匀分布更远,但是会更接近数据的实际分布。
2、例子介绍
例子1:抛硬币问题,限制一是:P(抛正面)+P(抛反面)=1,限制二:P(抛正面)=0.3
例子2:已知一段文本中的元素的词性以及对应的频率,这个是我们的数据。基于此我们来寻找最大熵模型。
3、凸性
凸的定义,满足如下公式的函数就表示该函数有凸性,凸性保证函数只有一个单独的全局最大值。
基于凸的推导可得:有限制条件的熵是凸函数
-xlog(x)是凸函数;因为凸函数的和也是凸函数,所以-∑xlog(x)是凸函数;限制条件是一个线性子空间,也是凸函数;所以有限制的熵就是凸函数。因此指数模型的最大似然也是凸的。
二、最大熵模型中的特征重叠(overlap)
1、特征重叠(overlap)
正如我们在之前论述的那样(
Introduction to NLP by Chris & Dan翻译 第八课 最大熵模型与判别模型
的第五节),重复的特征对最大熵模型没有影响,但是会对朴素贝叶斯产生影响。可以看到下面的例子中,两个特征都是A=2/3,对估计的结果没有影响。
从下面的例子中,我们也可以看到:Grace和<G这两个特征(用箭头指的特征)存在着一定程度的重叠,因此特征Grace的权重就接近于0。
2、特征交互(interaction)
如果想在最大熵模型中构建特征交互项,我们就需要直接加入交互项特征。例子如下:
3、特征选择
逻辑回归中的交互特征选择是用贪婪逐步搜索(greedy stepwise search)
但是随着本身的特征增长,可能有效的交互特征是指数型增长的,所以这种选择只在有4-8个特征的时候是有效的。
在自然语言处理中,我们经常会使用到成百上千的特征,所以我们不能使用这样的选择方法。
一般而言,交叉项是基于语言直觉(linguistic intuitions)直接选择的。
三、条件和联合指数模型的关联
对联合模型P(X)和条件模型P(C|D)而言,我们可以认为C×D是一个复杂的X,其中
C比较小:2-100个种类
D非常巨大:文档空间是很巨大的
我们构建模型P(C,D),基于此我们计算特征的期望
D是无限的,但是就我们的数据而言,d是有限的。所以我们可以在这个模型 中加入一个特征,并且对它进行限制以匹配我们的实证数据。
这样大部分的P(c,d)就是0,这样我们就可以把期望改写成
这个改写的途径就是把P(c,d)改写成下面的公式,也就是包含P(c|d)的模式
因此,实际上这两个模型的关联在于,条件模型实际上就是有边界限制的联合模型(这个限制是对观察到的数据分布的匹配)。
四、最大熵模型的平滑
1、为什么要进行平滑?
特征很多:NLP最大熵模型有超过一百万的特征,即使对这些参数进行简单的存储都会导致很大的内存负担。
稀疏很多:很容易导致过拟合,很多在训练的时候用到的特征可能在测试的时候不会再出现了。
优化问题:特征的权重可能是无穷大,迭代去需要花很多时间才能到无穷大
举例而言
在上面的第三种情况中,会出现λ无穷大的情况,导致优化过程会非常漫长;并且它假设一直会出现正面,本身就没意义。
2、平滑方法一:早停(early stopping)
在进行几轮的迭代之后,停止优化。
λ值就不会无穷大(但是会很大)
优化不会无穷无尽地进行下去了
经常被用在早期的最大熵模型中
3、平滑方法二:先验(priors( MAP))
设定存在一个先验期望:参数值不会很大。这样我们就可以利用先验(priors)来平衡实证导致的无穷大的参数,使其平滑。
实现方法:把优化目标改为最大后验似然
先验(prior)项:高斯/二次/L2先验
基本思想:先验期望是每个参数都遵循平均数为μ方差为σ²的高斯分布。如果参数离他们的平均先验值(通常μ=0)很远的话就会对他们进行惩罚。
对于σ²而言,它的作用是调节参数离开μ的容易程度,如果很小的话,会使得参数更容易接近0。一开始的时候,比较合适的值是σ²=1/2,后期可以再调整。
我们可以把高斯先验的优化目标写为:
它的导数是:
高斯先验牺牲了一部分的期望匹配来获得更小的参数。也就是那些有更多数据符合的特征会有更高的权重。如下面的训练数据所示,符合NNP特征的数据比符合IN NNP特征的数据多,因此NNP特征的权重也更高。同时正确率也会提升。
例子:词性标注
关于称呼:在贝叶斯语境中我们一般称之为prior或者MAP估计。人们更常见的称呼是正则,高斯先验对应的称呼是L₂正则。但是实际上这几种称呼对应的方法在数学上没有区别。
4、平滑方法三:虚构数据(virtual data)
基本思想:平滑数据而不是平滑参数。这个方法和生成模型的加一平滑非常相似。
主要的问题是当特征很多的时候,虚构数据会非常困难。
例子如下:
5、平滑方法四:计数切断(count cutoff)
主要的想法就是直接把那些实证计数比较少的特征丢掉
非常弱和不直接的平滑方法
相当于把这些特征的权重改为0
相当于加入了一个平均值为0方差为0的高斯先验
丢掉的那些计数很少的特征确实大部分是需要平滑的 ,同时它也降低了模型的规模加速了估计,但是和平滑相比它会伤害一定的准确性。
我们认为尽量不要使用计数切断,除非是基于内存的原因。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/Li_阴宅/article/detail/944118
推荐阅读
article
gitHubLogin
_hgu
login
...
tittle:
gitHubLogin
tags:
login
gitHubLogin
gitHub第三方登录第一步:注册OAu...
赞
踩
article
常用
的
6个
的
ChatGPT
网站
国内
可用
_
国内
chatgpt
平台
...
利用知识通AI探索GPT-4
的
前沿技术,为你
的
应用或项目带来智能升级。
_
国内
chatgpt
平台
国内
chatgpt
平台
...
赞
踩
article
Linux
系统
安装
Dify
结合内网穿透实现
远程
访问本地
LLM
开发平台_
dify
安装
...
本文主要介绍如何在
Linux
Ubuntu系统使用Docker快速部署大语言模型应用开发平台
Dify
,并结合cpolar...
赞
踩
article
Elasticsearch
架构
原理
快速了解_
es
架构
原理
...
介绍
Elasticsearch
(ES)的核心概念、工作
原理
、写入和读取过程以及提高数据可用性和高并发性能的方法。_
es
架...
赞
踩
article
day17
构造
二叉树
_
中序
遍历
序列
:
acbgedf
,后序
遍历
序列
:abcdefg,构造
二叉树
...
leetcode 105 从前序与
中序
遍历
序列
构造
二叉树
这道题感觉好难,但是通过这道题也学到了好多东西构成
二叉树
中序
序列
...
赞
踩
article
AI
正在
取代
工作岗位
、
ChatBot
进入厌倦期
、
向量
数据库
崛起,
人工智能
现状报告有这些重要发现!...
百度的无人驾驶“萝卜快跑”已经在武汉大面积推广,在部分城市进行小量的试运行,以低廉的价格直接卷翻滴滴
、
出租车司机,让人们...
赞
踩
article
mysql
主从
数据库
怎么搭建_
Mysql
主从
数据库
搭建...
本文介绍了MySQL
主从
数据库
的搭建过程,旨在实现读写分离,减轻
数据库
压力。通过详细步骤,包括配置
主从
服务器、设置
数据库
...
赞
踩
article
File
文件
类学习总结...
【代码】
File
文件
类学习总结。
File
文件
类学习总结 常用方法: package co...
赞
踩
article
云计算
的
两地
三
中心
和
灾备
介绍_
两地
三
中心
灾备
...
两地
三
中心
是指在不同
的
地理位置建立两个数据
中心
和一个
灾备
中心
,其中一个数据
中心
为主数据
中心
,另一个数据
中心
为备用数据
中心
...
赞
踩
article
【
数据结构
】
堆
的
实现
_
堆
的
实现
方法...
堆
_
堆
的
实现
方法
堆
的
实现
方法 目录 一、
堆
的
概念 1.概念: 2.性质 二.
堆
的
实现
1...
赞
踩
article
处理
华为
&
华三
交换机
忘记
console
口登录
密码
_
华三
交换机
重置
密码
...
处理
华为
&
华三
交换机
忘记
console
口登录
密码
_
华三
交换机
重置
密码
华三
交换机
重置
密码
...
赞
踩
article
【
LINUX
】
i
.
MX6
学习笔记(3)
驱动
多个
串口
_正点
原子
多
串口
驱动
...
1. 引言做的项目里,需要在应用层
驱动
6个
串口
。排了一下引脚,准备用uart1、2、3、4、5、6这6个
串口
这个东西,按...
赞
踩
article
【机器
学习
】
python
实现
随机
森林
_
随机
森林
python
...
本文介绍了
随机
森林
算法,包括其作为集成
学习
的一部分,以及Bagging和
随机
森林
的区别。通过使用MNIST数据集,展示了...
赞
踩
article
2021
年
全球十大
数据
安全事件
_
数据
库安全例子
有
哪些各个行业...
点击“终码一生”,关注,置顶公众号每日技术干货,第一时间送达!
2021
年
,
数据
隐私泄露事件频发,涉及面广,影响力大,企业...
赞
踩
article
光纤网络
电力
控制系统
设计方案:623-6U
CPCI
的
光纤网络
电力
控制系统
_6u
cpci
扩展
板卡
...
柔性直流输电系统中用于控制与测量的FS系统,适用于风电和太阳能发电的并网快速数值计算和闭环控制,以及与直流输电系统的换流...
赞
踩
article
关于
NXP
公司
的
IMX6
系列
芯片
参考资料
体系介绍...
本文详细介绍了
NXP
公司
的
IMX6
Q
系列
芯片,包括其基于ARM Cortex-A9架构
的
特点,以及
NXP
提供
的
官方支持,...
赞
踩
article
企业或设计师如何
使用
ComfyUI
轻松构建项目
AI
工作流_
comfyui
怎么
生成
workflow
...
AI
GC技术的未来发展前景广阔,随着人工智能技术的不断发展,
AI
GC技术也将不断提高。未来,
AI
GC技术将在游戏和计算领...
赞
踩
article
2023 睿抗
机器人
开发者
大
赛
CAIP
-编程技能
赛
-高职组
(
省
赛
)_
rc
-v7
翻箱倒柜
...
输入第一行给出 3 个正整数,依次为 A、B、N,其中 1<105 为给定的整数范围
(
闭区间的两个端点),1≤N≤10 ...
赞
踩
article
海康
nvr
使用28181协议配置说明
_
海康
nvr
sip
...
SIP服务器地址,端口,设备连接的服务器ip和端口。SIP服务ID,服务器唯一识别符,用以区分服务器。SIP用户认证ID...
赞
踩
article
Python
工业
项目
实战03:
ODS
层及
DWD
层构建_一站式制造
项目
数据表
...
本文详细讲述了一站制造
项目
中数仓设计的层次划分,包括
ODS
层的原始数据处理、数据源和问题解决方案,以及
DWD
层的明细数据...
赞
踩
相关标签
vue
chatgpt
人工智能
linux
运维
服务器
elasticsearch
大数据
二叉树
数据结构
mysql主从数据库怎么搭建
python
开发语言
openstack
算法
c语言
华为
centos
网络
随机森林
big data
fpga开发
光纤网络电力控制系统
电力控制系统