搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
煮酒与君饮
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
底盘控制器与汽车VDSW系统:提升车辆性能与安全性的关键要素
2
10大常见网络安全攻击手段及防御方法总结_网络攻击技术的常见类型和手段
3
三年测试,月薪才12k,想跳槽又不太敢....._三年工作经验要9k到12k还是10k到13k
4
安全科普:什么是暴力破解攻击?如何检测和防御?_暴破攻击防护
5
计算机基础学习
6
Hadoop大数据平台搭建_hadoop大数据平台构建
7
顺序循环队列的基本操作(C语言实现)_循环队列入队出队c语言
8
深入分析 Android ContentProvider (三)_android contentprovider 权限
9
关于什么是股指期货的知识普及篇
10
AI安全帽识别/人脸识别智能分析网关如何配置告警信息推送_智能安全帽ai识别
当前位置:
article
> 正文
自然语言处理在搜索引擎信息检索中的应用_自然语言处理数据搜索
作者:煮酒与君饮 | 2024-08-18 14:54:21
赞
踩
自然语言处理数据搜索
自然语言处理在搜索引擎信息检索中的应用
文章介绍了2002时使用的三种搜索技术,并提出了一个信息检索模型,并提出了一种分析输入搜索串以提高搜索精度的算法。
三种搜索技术是:基于robot的搜索、元搜索、目录搜索。
基于robot的搜索使用robot(spider或crawler)获取抓取网络上Web页面的内容,按照一定的存储结构存储到数据库中。当用户发出搜索请求时,服务器从数据库中搜索信息,并返回给用户。这是最原始的一种搜索技术,同时也是当前应用最广泛的技术。它获取的信息量大,全面,并易于更新。
元搜索又叫Multi search engine,他使用他人的搜索网站,然后对信息合并,返回用户。这种搜索引擎没有本地数据库,开发简单,但是信息反馈较慢。
目录搜索是最机械的一种搜索方式,他的数据库是靠专职编辑或志愿人员建立起来的。编辑人员对该站点或文章进行描述或分类,然后将站点的URL和描述放到类别中,当用户搜索时,只在这些描述中搜索。就目前来看,这种方式仍然在使用。一些Blog网站仍然让用户写tag和写描述信息,应该就是分类。
文章提出的信息检索模型分为4个模块,分别为:关键词预处理、特征提取、歧义消解、检索模块。
关键词预处理部分通过分词字典和知识库及相应算法将用户输入的关键词进行切分。这个分词过程异常复杂,有很多种分词算法和模型。分词算法有基于规则的理性方法也有基于统计(语料库)的经验主义方法。
特征提取阶段去掉一些不能作为特征的词,并提取一些有意义的词。
歧义消解阶段找出有意义的词。
检索模块利用分词得到的检索词从文中检索,找出相关度最高的文章。相关度的计算也需要一系列的算法。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/煮酒与君饮/article/detail/997905
推荐阅读
article
Adobe
Photoshop
2024
for Mac v25.9 - ps
图像处理
软件_adob...
Adobe
Photoshop
2024
(简称PS
2024
)是一款和编辑软件,为用户提供了强大的工具和功能,以创建和编...
赞
踩
article
输入
数据
有
多组
,
每组
的
第一行
是
两个
整数
m
和
n
,表示应聘MM的总共的行列数,然后是
m
行整数,每行
有
n
个...
#i
n
clude
#i
n
clude<
m
ath.h>i
n
t
m
ai
n
(void) { i
n
t
m
,
n
; ...
赞
踩
article
Qwen2
模型
微调
展示+
模型
部署
_
qwen2
怎样显示...
4.运行 一个终端一个web端,需要指定预训练
模型
的路径。2.在魔塔社区下载预训练语言
模型
。5.
微调
llama
微调
框架适...
赞
踩
article
在
Windows
中,开启
MySQL
远程
访问功能,最实用的方式_
windows
mysql
yuanc...
当你看到这篇博文时,你就已经意识到了在
Windows
上安装完
MySQL
且创建了支持
远程
访问的账户之后,并不能通过IP进行...
赞
踩
article
腾讯
AI
-智能
闲聊
机器人
-
Python3
全套教程
_
闲聊
大师
腾讯
...
这篇博客详细介绍了如何创建和接入
腾讯
AI
的聊天
机器人
,包括注册账号、创建应用、记录APP
_
ID和APP
_
KEY,以及开始...
赞
踩
article
ZK(
ZooKeeper
)
分布式
锁
实现
,史上超级详细_zk
实现
分布式
锁
-
baijiahao
...
本文介绍了如何使用
ZooKeeper
创建临时顺序节点
实现
分布式
锁
,通过创建持久父节点,竞争成为最小序列号来获取
锁
,利用w...
赞
踩
article
【
架构
分析】
MESA
(
EGL
/
GLES
)
架构
分析_
mesa
egl
...
目录背景介绍
MESA
软件
架构
非-Gallium3D
架构
Gallium3D
架构
Intel i915 BackendVirt...
赞
踩
article
【
Unity3D
】安卓平台上
Physics
.
Raycast
射线
检测
物体问题_
unity
手机上
射线
检测
...
射线
检测
代码:
Raycast
Hit hit;Ray ray = camera.ScreenPointToRay(Inpu...
赞
踩
article
iframe
父子
页面
间
数据
交互
_
iframe
交互
...
本文详细介绍了
iframe
中父子
页面
之间的
数据
交互
方法,包括使用`postMessage`发送和接收消息的步骤,强调了安...
赞
踩
article
php
做图片
上传
功能...
今天来做一个图片
上传
功能的插件,首先做一个html文件:text.
php
[详细]
-->
赞
踩
article
[
Linux
]
权限
详解_echo 'password' |
sudo
-s
chown
root
:ro...
文章介绍了
Linux
的Shell运行原理,指出Shell作为用户与操作系统交互的层。接着详细讲述了
Linux
的
权限
系统,...
赞
踩
article
WD1.4
标签
器
:
Stable
Diffusion
的
提示
词反推神
器
...
WD1.4
标签
器
是一款专为
Stable
Diffusion
设计的插件,用于分析上传的图片并提取出其背后的
提示
词。通过这个...
赞
踩
article
摸着石头过河
的
具身
智能
公司
,正在寻求“
确定性
”...
看得见
的
蓝海,还有多远?
摸着石头过河
的
具身
智能
公司
,正在寻求“
确定性
” 在种种不确定...
赞
踩
article
解决
Excel
无法打开
文件
“xxx.
xlsx
“
,
因为
文件
格式
或
文件
扩展名
无效。请确定
文件
未损坏
,
并且...
解决
Excel
无法打开
文件
"xxx.
xlsx
"
,
因为
文件
格式
或
文件
扩展名
无效。请确定
文件
未损坏
,
并且
文件
扩展名
与
文件
的
格...
赞
踩
article
全套
Java
面试
八股文
(含答案)_
八股文
java
面试
题...
double 和 long 都是64位宽,因此对这两种类型的读是分为两部分的,第一次读取第一个 32 位,然后再读剩下的...
赞
踩
article
shell
脚本
教学(
一
)...
1.理解什么是
shell
?2.什么是
shell
脚本
?
脚本
是
一
种解释型语言,用
shell
脚本
保存执行动作,用
脚本
判定命令的...
赞
踩
article
半导体
行业相关术语
_
pogo
tower
...
本文详细介绍了
半导体
行业的关键术语,包括晶圆、自动化测试设备(ATE)、晶盒、待测设备(DUT)、探针接口板等。还涵盖了...
赞
踩
article
python
篇-
常用
库
08
-
Flask
框架
(图文详解)...
本文介绍了
Flask
,一个轻量级的PythonWeb
框架
,通过装饰器实现路由功能,包括基本的路由设置、参数处理、请求钩子...
赞
踩
article
【深度学习】【
语音
】
TTS
,最新
TTS
模型
概览,扩散
模型
TTS
,Melo
TTS
、
Style
TTS
2
、...
Melo
TTS
: Melo
TTS
是 MyShell.ai 开发的一个多语言
语音
合成
模型
,支持包括英语、西班牙语、法语、...
赞
踩
article
CDA
Level1
考试
心得_
cda
考试
题目会变吗...
2019-12-28
CDA
Level 1
考试
总结
考试
题型单选题(50’=50*1’)多选题情景题(4*(单选+多选)...
赞
踩
相关标签
adobe
photoshop
macos
人工智能
自然语言处理
语言模型
文心一言
mysql
python
聊天机器人
分布式
zookeeper
云原生
javascript
php
xhtml
ViewUI
linux
权限
运维
外壳程序
stable diffusion
excel
后端