搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
酷酷是懒虫
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
群晖服务器中用Docker运行Oracle11g_群晖安装oracle
2
函数和lambda笔记_z=x if x else y
3
二叉树OJ题(干货满满)_treeutil.build
4
RabbitMQ 的常考面试题总结_rabbitmq面试
5
Dubbo+Flutter在线交友平台教程第一天 项目介绍和框架搭建
6
无线通信模块通过TCP/IP协议实现与PC端的数据传输_无线通信的传输协议是什么
7
uimode实现交互模式控制
8
【哈希表】 密码解密_给定一段"密文"字符串s,其中字符都是经过"密码本"映射的,现需要将"密文"解密并且
9
文件系统格式FAT16、FAT32、NTFS、exFAT的区别
10
微服务进化论:如何在Eureka中实现服务的版本控制和兼容性管理_微服务版本管理
当前位置:
article
> 正文
斯坦福大学-自然语言处理入门 笔记 第二十一课 问答系统(2)_question-focused summarization
作者:酷酷是懒虫 | 2024-08-01 22:16:03
赞
踩
question-focused summarization
一、问答系统中的总结(summarization)
目标:产生一个摘要文本包含那些对用户重要和相关的信息
总结的应用领域:任何文档的摘要和大纲,邮件摘要等等
根据总结的内容,我们可以把总结分为两类:
单文档总结:给出一个单一文档的摘要、大纲、标题
多文档总结:给定一组文档,给出内容主旨;比如说同一个事件的新故事,关于一些话题和问题的网页
根据总结的目的,我们可以把总结分为两类:
泛总结:总结文档的内容
聚焦请求的总结:基于用户请求展现出的信息需求在总结文档;这是一种复杂的问答系统,通过总结含有某些信息的文档来构建回答
根据回答的特点,我们可以把总结分为两类:
提炼(extractive)总结:基于源文档的词组和句子来构建总结
抽象(abstractive)总结:用一部分的不同单词来表达源文档的观点
一个非常简单的方法:使用第一行的句子
二、生成片段(snippets)
总结的三个阶段:
内容选择:选择从文档中抽取的句子
信息排序:为这些句子选择顺序
句子实现:清理句子
1、无监督的句子选择
这个思想主要源于Luhn(1958):选择那些更重要和更有信息性的单词
两种定义重要单词的方法:
tf-idf:对每个在文档j中的单词wi进行tf-idf权重计算
话题署名:选择更小一部分的重要单词
互信息
对数似然比例(LLR)
选择更有信息性的单词
对数似然比例(LLR)
是否在请求中出现
句子重要性计算:句子中的单词的重要性的和
2、有监督句子选择
给定:对训练文档进行标注,标注出好总结
对应关系:文档中的句子和总结中的句子的对应关系
抽取特征:句子的位置(第一句话?),句子的长度,单词的信息等等
训练:进行一个二分类的训练,判断是否要把句子放到总结中
问题:很难得到标注的数据;找到对应关系很困难;效果并不比无监督算法
所以在实际中,无监督的内容选择是更普遍。
三、总结器的评估:ROUGE
这是对
基于BLEU(机器学习所使用的度量)
并不比人工评估好(即直接让人工判断这个回答是不是用户的问题)
但是会更方便
给定一个文档D和一个自动生成的总结X
有N个人工产生的可以参考的关于D的总结
运作总结器,给出自动生成的总结X
参考总结中二元组在X中出现的比例就是度量
一个例子:
四、更复杂的问题:总结多个文档
这部分现在还没有商业化,但是目前研究的议题。如何回答更长更困难的问题?比如
两种通过请求聚焦总结(query-focused summarization)进行困难问题的回答的方法
从下往上的片段方法:找到一系列相关的文档;从这些文档中利用tf-idf,MMR来进行信息性句子抽取;排序并调整句子形成答案
从上往下信息抽取方法:对不同的问题类型建立特定的回答格式
个人传记需要包含:生卒年月、教育、国籍等等
定义需要包含:属、上义关系
1、从下往上的片段方法
聚焦请求的多文档总结的流程
简化句子:最简单的方法是利用句法分析句子,根据一些人工规则来决定哪些修饰语可以被删除,现在越来越多开始使用机器学习的方法
从多文档中抽取内容的方法:最大边际关联(MMR)
一种贪婪的方法,迭代选择最好的句子插入到总结中。最好的句子是相关且含有新含义的句子
相关:和用户请求的最大相关,即与请求的cosine相似度高
新颖:和现在已经有的总结相比,相关度更低,即与请求的cosine相似度低
当满足想要的长度的时候就停止
LLR+MMR:选择有丰富含义同时新颖的句子
第一步,对每个句子基于LLR计算分数
第二步,把得分最高的句子放入总结中
第三步:迭代加入得分高且含有新含义的句子
信息排序
时间顺序:根据文档的时间顺序排序
连贯性:使得相邻的句子相似的顺序;使得相邻的句子讨论同一个实体
话题顺序:学习源文档的话题顺序
2、从上往下信息抽取方法
从上往下信息抽取方法:对不同的问题类型建立特定的回答格式,比如
个人传记需要包含:生卒年月、教育、国籍等等
定义需要包含:属、上义关系
一个例子
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/916158?site
推荐阅读
article
HDLBits
答案(
16
)_
Verilog
有限
状态机
(3)...
Verilog
有限
状态机
(3)
HDLBits
链接前言今天继续更新
状态机
小节的习题,本章主要编写Lemmings Game...
赞
踩
article
状态机
设计_
verilog
状态机
死锁...
参考了网上的一些前辈blog和自己搜集到的资料,整理了一下读书笔记,虽然内容基本上都是别人写的,但是整理起来也好累 = ...
赞
踩
article
Redis
缓存
雪崩
、
缓存
穿透
的
定义及解决_
redis
缓存
雪崩
定义...
缓存
雪崩
1.1什么是
缓存
雪崩
?如果我们
的
缓存
挂掉了,这意味着我们
的
全部请求都跑去数据库了。我们都知道
Redis
不可能把所...
赞
踩
article
IntelliJ
IDEA
2016激活码...
IntelliJ
IDEA
2016.2激活激活码43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0...
赞
踩
article
由于SQL
Server
日志文件过大导致
C盘
满
了
的
解决方案
_
sqlserver
数据库
c盘满
了
...
._
sqlserver
数据库
c盘满
了
sqlserver
数据库
c盘满
了
参考链接:链接 由...
赞
踩
article
最终还是放弃了拼
多多
NLP
算法
岗(
大
模型
方向)
Offer
。。。_拼
多多
nlp...
暑期实习基本结束了,校招即将开启。不同以往的是,当前职场环境已不再是那个双向奔赴时代了。求职者在变多,HC 在变少,岗位...
赞
踩
article
【
人工智能
】--
迁移
学习
_
迁移
学习
方式
有
哪些
csdn
...
迁移
学习
是机器
学习
领域中一项极具创新性和实用价值的技术。它打破了传统机器
学习
中每个任务都需从零开始训练模型的局限性,通过...
赞
踩
article
VMamba
模型...
本周阅读了
VMamba
: Visual State Space Model
VMamba
这篇文献,
VMamba
是一种通...
赞
踩
article
FL
Studio
24.1
.
1.4234
官方
中文
破解安装使用指南...
该软件还有一个
中文
名叫做水果音乐工作室,也被号称为小白音乐制作软件,不管你是零基础还是刚入门的朋友们都可以使用这款软件轻...
赞
踩
article
头歌
正则表达式
综合练习(3)
_
python
正则表达式
综合练习
头歌
...
import redef parse
_
one
_
page(html): #*********** Begin ******...
赞
踩
article
优化
大
数据
环境下的
慢
查询
性能
——
慢
查询
分析
与参数调优_大屏
数据
查询
慢
优化
方法...
综上所述,通过
慢
查询
分析
和参数调优,我们可以
优化
大
数据
环境下的
慢
查询
性能
。
分析
慢
查询
语句:对
慢
查询
日志中的
查询
语句进行分...
赞
踩
article
入职必备-
mac
下载
安装
maven
_
mac
maven
下载
...
复制如下内容,MAVEN_HOME 替换为自己目录。命令,查看
maven
_HOME目录。,查看
maven
版本信息。需...
赞
踩
article
机器
推理
知识
推理
概览:七大
自然语言
处理
的
任务
最新
方法
与进展...
原创:段楠 唐都钰 周明编者按:
自然语言
处理
的发展进化带来了新的热潮与研究问题,研究者们在许多不同的
任务
中推动
机器
推理
(...
赞
踩
article
【
算法
题解】
30
. 全
排列
的
递归
解法
_
递归
算法
30
...
给定一个不含重复数字
的
数组 nums ,返回其 所有可能
的
全
排列
。
_
递归
算法
30
递归
算法
30
...
赞
踩
article
灵活应用
MPC
技术
实现
智能
车
避障
控制
的
轨迹
重
规划
,
Simulink
模型结合Carsim
参数设置
的联合...
在
智能
车领域,
轨迹
重
规划
是一项关键技术,它能够根据实时环境信息和车辆动力学模型,在行驶过程中调整车辆
轨迹
,以
实现
更优的路...
赞
踩
article
Huggingface
模型
及数据
下载
_
git
lfs
huggingface
模型
训练数据集
下载
...
Huggingface
模型
及数据
下载
步骤_
git
lfs
huggingface
模型
训练数据集
下载
git
lfs
...
赞
踩
article
idea
2016.1
激活码...
服务器激活方式,地址http://
idea
.iteblog.com/key.php
idea
2016.1
激活码 ...
赞
踩
article
计算机毕设项目七:
机器
学习
模型对
肺癌
患者
疾病
预测
分析
实战完整代码数据_使用
机器
学习
预测
肺癌
...
机器
学习
模型对
肺癌
患者
疾病
预测
分析
实战 完整代码数据_使用
机器
学习
预测
肺癌
使用
机器
学习
预测
肺癌
...
赞
踩
article
Istio
太复杂?
KubeSphere
基于
Ingress
-
Nginx
实现灰度发布_
istio
灰度...
在 Bookinfo 微服务的灰度发布示例 中,
KubeSphere
基于
Istio
对 Bookinfo 微服务示例...
赞
踩
article
【
Llama3
:
8b
】手把手教你如何在本地部署
自己
的
AI
大
模型
(◍•ᴗ•◍)_ubuntu1...
但苦于知识传播途径有限,很多互联网行业朋友无法获得正确
的
资料得到学习提升,故此将并将重要
的
AI
大
模型
资料包括
AI
大
模型
入...
赞
踩
相关标签
verilog
Redis
idea
intellij idea
激活码
数据库
自然语言处理
算法
人工智能
大模型
职场和发展
面试
迁移学习
机器学习
VGG16
python
深度学习
计算机视觉
笔记
学习
macos
mac
FL Studio
FL Studio 21