赞
踩
关键词是表达文档主题意义的最小单位。关键词自动抽取技术则是一种识别有意义且具有代表性片段或词汇(即关键词) 的自动化技术。关键词自动抽取在文本挖掘领域被称为关键词抽取 (Keyword Extraction),在信息检索领域则通常被称为自动标引 (Automatic Indexing),关键词提取是文献检索、自动摘要、文本分类、推荐系统等领域的基础性任务。
中文关键词提取算法:目前在中文数据集上主要使用的算法有以下三种:
由2000+博士论文组成,其类别和组成内容如下:
使用jieba自带的tfidf,textrank及gensim的LDA算法对人文类数据集测评的准确率如下:
改进后的TF/IDF算法与原算法在2000+数据集上提取准确率对比如下:
目前关键词提取的准确率任然极大地依赖于中文分词,目前在不同学科论文中测试,未发现通用的中文分词库,分词测试文本见下例:“我想过过过儿过过的生活,标准化方差,基于神经网络的磷酸铁锂电池SOC预测研究,王鹏运等《庚子秋词》在“词史”上的意义”,测试结果如下图jieba paddle分词结果
其它分词结果
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。