赞
踩
开发软件: Eclipse/Idea + mysql【java网站端】 + Pycharm 【算法端】
开发技术: 网站端SSM可升级Springboot + Python + 基于TF-IDF的特征提取技术 + Word2Vec文档转向量技术
TF-IDF自然语言处理领域中计算文档中词或短语的权值的方法,是词频(Term Frequency,TF)和逆转文档频率(Inverse Document Frequency,IDF)的乘积。TF指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件(同一个词语在长文件里可能会比短文件有更高的词频,而不管该词语重要与否)。IDF是一个词语普遍重要性的度量,某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
TF-IDF算法基于一个这样的假设:若一个词语在目标文档中出现的频率高而在其他文档中出现的频率低,那么这个词语就可以用来区分出目标文档。这个假设需要掌握的有两点:
在本文档出现的频率高;
在其他文档出现的频率低。因此,TF-IDF算法的计算可以分为词频(Term Frequency,TF)和逆转文档频率(Inverse Document Frequency,IDF)两部分,由TF和IDF的乘积来设置文档词语的权重。
物品画像构建步骤:
读取mysql数据库读取每个物品的标签作为物品的候选关键词
利用TF·IDF计算每个物品的标签的tfidf值,选取TOP-N个关键词作为物品画像标签
将物品的分类词直接作为每个物品的画像标签
用户画像构建步骤:
根据用户的购买或评分收藏点赞历史记录,结合物品画像,将有相关物品记录的画像标签作为初始标签反打到用户身上
通过对用户观影标签的次数进行统计,计算用户的每个初始标签的权重值,排序后选取TOP-N作为用户最终的画像标签
解决物品冷启动问题:
利用Word2Vec可以计算物品所有标签词之间的关系程度,可用于计算物品之间的相似度,word2vec是google在2013年开源的一个NLP(Natural Language Processing自然语言处理) 工具,它的特点是将所有的词向量化,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。Doc2Vec是建立在Word2Vec上的,用于直接计算以文档为单位的文档向量,这里我们将一个物品的所有标签词,作为整个文档,这样可以计算出每个物品的向量,通过计算向量之间的距离,来判断用于计算物品之间的相似程度。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。