赞
踩
机器学习中提到的用户画像,通常是基于给定的数据对用户属性、行为进行描述,然后提取个性化指标,再以此分析可能存在的群体共性,并落地应用到各种业务场景中。
用户画像核心:“打标签”,即标签化用户的行为特征。
企业通过标签,分析用户(社会属性、生活习惯、消费行为)===>商业应用
直接拍了张照片,因为我觉得我画的不如人家的好看,而且还浪费时间。凑合看下,了解即可:
获取标签的渠道主要有三种:事实类标签、规则类标签、模型类标签。
包含四个部分:数据源、标签管理、标签层级分类、标签服务赋能。
用户画像的数据来源主要有三种:用户数据、商品数据、渠道数据。
可以通过统计、编码、降维提取有效特征===>构造标签
四种:数值型变量、类别型变量、多值型变量、文本型变量。
对原始数据出现的用户标签集合、购物评价,做基于文本的特征提取,同时预处理、清洗。
用到的文本挖掘算法:LSA、PLSA、LDA。===>无监督学习
嵌入表示可以将高维系数特征向量转换成低维稠密特征向量来表示。
获取用户和商品的嵌入表示、文本的分词表示即各类稀疏表示后,就可以对这些向量表示进行相似度计算了。
基于相似度计算的特征提取方法有:欧氏距离、余弦相似度、Jaccard相似度等===>提取用户、商品、文本的相似度。
广泛应用场景:用户分层聚类、个性化推荐或广告投放。
产品上线之初对目标用户群已有一些定位,但上线之后情况与预期或历史或许存在偏差,需要对拉新、促活、留存、新增用户特征、核心用户属性做分析研究,提炼人群特征,然后不断优化产品性能、UI交互。
【总结】
在用户生命周期的各个阶段,对用户行为属性、群体特点进行研究===>提升产品,压榨用户价值
范畴内:推荐系统、广告投放
基于用户历史消费行为,为电商找到种子用户。
风控领域的特点:
①解释性高,时效性
②业务关联度高
③负样本占比极少,是均衡学习算法的主战场之一。
【题外话】
金融信贷领域,客户的风险主要来自两方面:还款能力和还款意愿。
还款能力主要考察客户是否有足够的资金,并且按时还款,这就涉及到客户的工资日,工作、学历什么的。
还款意愿,一个是突发因素还不了了,比如失业了,另外一个就是本来贷款的时候就没想过要还,这就涉及到金融领域的反欺诈。
本来之前看了一本书是关于金融风控的,但是那个作者比较缺德的是,没有数据集,书里面只有代码,直接就导入了不知道什么数据集,这怎么搞啊。过分。
见【机器学习】《机器学习算法竞赛实战》思考练习(更新中……)
以上。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。