搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
知新_RL
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【S32DS报错】-2-提示Error while launching command:arm-none-eabi-gdb –version错误_error while launching command: d:\nxp\s32ds.3.4\ec
2
2023华为od机试C卷【剩余银饰的重量】C++ 实现_剩余银饰的重量 华为
3
在linux shell中使用for遍历产生的递增数字序列的N种方法_linux for里怎么递加2
4
搭建CRNN模型(基于windows与tensorflow)_crnn模型训练
5
大数据毕业设计:python校园舆情分析可视化系统 情感分析 舆情分析 朴素贝叶斯分类算法 爬虫(源码)✅_舆情分析 代码货栈
6
【FPGA/verilog -入门学习11】verilogTestbench中的文本文件写入,读出,打印等操作_verilog测试文件操作步骤
7
浏览器打印信息和自己写的console的位置不一样,一直显示 transform.js
8
迅为RK3568开发板Linux_NVR_SDK 编译源码_rk3568 nvr sdk
9
跨时钟域中单比特处理的基本知识点_synchronizer hold time
10
iphone simulator 如何添加图片到相册_ios 模拟器 相册图片位置
当前位置:
article
> 正文
中文分词_nlp paoding
作者:知新_RL | 2024-03-21 14:18:41
赞
踩
nlp paoding
MFSOU中文分词PHP扩展
一个PHP函数实现中文分词。使分词更容易,使用如下图:
SCWS调用示例
SCWS
Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和PHP 5。
FudanNLP
FudanNLP主要是为中文
自然语言处理
而开发的工具包,也包含为实现这些任务的
机器学习
算法和数据集。本工具包及其包含数据集使用LGPL3.0许可证。开发语言为Java。功能包括中文分词等,不需要字典支持。
ICTCLAS
这是最早的中文开源分词项目之一,ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、FreeBSD及Windows系列
操作系统
,支持C/C++、C#、Delphi、Java等主流的开发语言。
HTTPCWS
HTTPCWS 是一款基于
HTTP协议
的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。
CC-CEDICT
一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。
IK
IKAnalyzer
是一个开源的,基于
java语言
开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,
IKAnalyzer
已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对Lucene的默认优化实现。
Paoding
Paoding
(庖丁解牛分词)基于Java的开源中文分词组件,提供lucene和solr 接口,具有极
高效率
和
高扩展性
。引入隐喻,采用完全的
面向对象设计
,构思先进。
高效率:在PIII 1G内存个人机器上,
1秒
可准确分词
100万
汉字。
采用基于
不限制个数
的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析。
仅支持
Java语言
。
MMSEG4J
MMSEG4J
基于Java的开源中文分词组件,提供lucene和solr 接口:
1.mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。
2.MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。
mmseg4j
已经实现了这两种分词算法。
盘古分词
盘古分词是一个基于.net 平台的开源中文分词组件,提供lucene(.net 版本) 和HubbleDotNet的接口
高效:Core Duo 1.8 GHz 下单线程 分词速度为 390K 字符每秒
准确:盘古分词采用字典和统计结合的分词算法,分词准确率较高。
功能:盘古分词提供中文人名识别,简繁混合分词,多元分词,英文词根化,强制一元分词,词频优先分词,
停用词
过滤,英文专名提取等一系列功能。
Jcseg
jcseg是使用Java开发的一个中文分词器,使用流行的mmseg算法实现。
[3]
1。mmseg四种过滤算法,分词准确率达到了98.4%以上。
2。支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类,词库整合了《现代汉语词典》和cc-cedict辞典。
3。词条拼音和同义词支持,jcseg为所有词条标注了拼音,并且词条可以添加同义词集合,jcseg会自动将拼音和同义词加入到分词结果中。
4。中文数字和分数识别,例如:"四五十个人都来了,三十分之一。"中的"四五十"和"三十分之一",并且jcseg会自动将其转换为对应的阿拉伯数字。
5。支持中英混合词的识别。例如:B超,x射线。
6。支持基本单字单位的识别,例如2012年。
7。良好的英文支持,自动识别电子邮件,网址,分数,小数,百分数……。
8。智能圆角半角转换处理。
9。特殊字母识别:例如:Ⅰ,Ⅱ
10。特殊数字识别:例如:①,⑩
11。配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。
12。智能中文人名识别。中文人名识别正确率达94%以上。
jcseg佩带了jcseg.properties配置文档,使用文本编辑器就可以自主的编辑其选项,配置适合不同应用场合的分词应用。例如:最大匹配分词数,是否开启中文人名识别,是否载入词条拼音,是否载入词条同义词……。
friso
friso是使用c语言开发的一个中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。并且提供了一个php中文分词扩展robbe。
1。只支持UTF-8编码。【源码无需修改就能在各种平台下编译使用,加载完20万的词条,内存占用稳定为14M。】。
2。mmseg四种过滤算法,分词准确率达到了98.41%。
3。支持自定义词库。在dict文件夹下,可以随便添加/删除/更改词库和词库词条,并且对词库进行了分类。
4。词库使用了friso的Java版本jcseg的简化词库。
5。支持中英混合词的识别。例如:c语言,IC卡。
7。很好的英文支持,电子邮件,网址,小数,分数,百分数。
8。支持阿拉伯数字基本单字单位的识别,例如2012年,5吨,120斤。
9。自动英文圆角/半角,大写/小写转换。
并且具有很高的分词速度:简单模式:3.7M/秒,复杂模式:1.8M/秒。
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/知新_RL/article/detail/281538?site
推荐阅读
article
MMR
自动
摘要
python
实现_
mmr
文本
摘要
...
MMR
的全称为Maximal Marginal Relevance ,中文名字为最大边界相关法或者最大边缘相关。它主要是...
赞
踩
article
Spring
BeanUtils
.
copy
Properties只拷贝不为
null
的
属性
_spring...
一:问题
BeanUtils
.
copy
Properties拷贝
属性
不排除
null
apache和spring的工具包中都有B...
赞
踩
article
unia
-
app
第三方
app
调用
_
unia
pp将支持将
应用
作为
第三方
应用
...
一.
unia
pp开发的
app
打开
第三方
应用
unia
pp开发的
app
打开
第三方
应用
,如淘宝,京东,QQ或本地安装好的apk...
赞
踩
article
鸿蒙
和
安卓
的关系以及
HarmonyNEXT
解读_
openharmony
harmonyos
next
...
想知道两者的关系 我们首先需要知道两者才能对二者从而得出结论。_
openharmony
harmonyos
next
区别...
赞
踩
article
几款
分词
工具_
分词
软件
...
以下介绍4款开源中文
分词
系统。1、ICTCLAS – 全球最受欢迎的汉语
分词
系统 中文词法分析是中文信息处理的基础与关...
赞
踩
article
大学
考试
分
数
越高
学
分
越多吗_
大学
之路 |
伯克利
学姐讲
学
分
,选课和转
专业
那些事......
作者简介Lily • UC Berkeley• Class of 2022今天这篇推文给大家介绍一下
大学
中的
学
分
、课程制...
赞
踩
article
嵌入式C语言基础(
STM32
)
_
uin
t
32
_
t
curren
t
...
define是C语言的预处理命令,它用于宏定义,用来将一个标识符定义为一个字符串,该标识符称为宏名,被定义的字符串称为替...
赞
踩
article
HashMap
底层
原理_
hashmap
的
底层
实现
c++...
文章目录
HashMap
底层
原理剖析JDK1.7
实现
基本
实现
思想链表的使用时机JDK1.8的优化红黑树的加入手撕鬼子环节:...
赞
踩
article
robots
.
txt
文件详解...
robots
.
txt
是一个用于告诉网络爬虫(也称为搜索引擎蜘蛛)哪些页面可以抓取,哪些页面不可以抓取的文本文件。它通常放...
赞
踩
article
java
修饰符
:
public
、
protecte
d
、
d
…
_
java
protecte
d
字节码...
public
权限最大,同类,同包,不同包,同包子类父类之间,不同包子类父类之间都可以访问。
java
默认的权限是
d
efa...
赞
踩
article
移除
元素
(
leetcode
)...
你不需要考虑数组中超出新长度后面的
元素
。例如,函数返回的新长度为 2 ,而 nums = [2,2,3,3] 或 num...
赞
踩
article
Sora
外部测试翻车
了
!
3
个
视频
都
有
Bug...
衡宇 发自 凹非寺量子位 | 公众号 QbitAI终于
有
OpenAI之外的人,放出自己亲测的
Sora
视频
了
!请看第一
个
视...
赞
踩
article
刷题
DAY27
|
LeetCode
39
-
组合
总和
40-
组合
总和
II 131-
分割
回文
串...
为什么 used[i - 1] == false 就是同一树层呢,因为同一树层,used[i - 1] == false...
赞
踩
article
【微
服务
】
分布
式调度
框架
PowerJob
使用
详解...
分布
式任务调度
框架
PowerJob
使用
详解【微
服务
】
分布
式调度
框架
PowerJob
使用
详解 目录...
赞
踩
article
The
server
encountered
an
unexpected
cond
it
ion tha...
报500错误,把所有程序关掉重启就好了_the
server
encountered
an
unexpected
con...
赞
踩
article
如何
使用
templ
在
Go
中编写
HTML
用户界面
?...
templ
是一个在
Go
中编写
HTML
用户界面
的语言。
使用
templ
,我们可以创建可呈现
HTML
片段的组件,...
赞
踩
article
华为
鸿蒙
服务器
维护
,
华为
手机
鸿蒙
HarmonyOS
2 公测爆满,
升级
通道入口
维护
暂停一天......
原标题:
华为
手机
鸿蒙
HarmonyOS
2 公测爆满,
升级
通道入口
维护
暂停一天IT之家 6 月 3 日消息 北京时间 ...
赞
踩
article
基于
java
微信
小
程序
教室
实验室
预约
系统设计与实现_
教室
预约
小
程序
...
其他开发语言:html + css +
java
script。
小
程序
开发:
微信
开发者工具(MINA框架)后台环境:JDK1...
赞
踩
article
arm
-
none
-
linux
-
gnueabi
交叉
工具链安装 ,介绍,区别总结_
arm
-
2014.05
...
1.
arm
-
none
-
linux
-
gnueabi
-gcc下载http://www.very
arm
.com/
arm
-non...
赞
踩
article
北交《计算题
体系结构
》
实验
四——
Tomasulo
算法
实验
_add.d
指令
...
一、
实验
目的了解
Tomasulo
算法
的模拟软件掌握
Tomasulo
算法
的运行过程及其原理二、
实验
内容了解
Tomasulo
...
赞
踩
相关标签
python
自然语言处理
nlp
java
spring
harmonyos
android
华为
开发语言
盘古
架构
php5
jquery
大学考试分数越高学分越多吗
c语言
物联网
hashmap
爬虫
服务器
运维
网络爬虫
bug
leetcode
数据库