赞
踩
注:本文是 年中盘点|2022上半年,CSDN帮用户解决了什么问题 的一部分。
AI小组半年研发分析,思考,回顾。
标签体系是数据分类的基础之一。我们持续在统一标签上进行改进
需求:Web发展到今天,一个特征是内容爆炸,已经出现“worse is better”的逆淘汰现象,也就是劣币驱逐良币。对于用户来说就是内容很多,但是找到的内容质量整体在下降。
解决:我们从衡量博文质量的角度出发,设计并实现了一套有效的博文质量评分机制。
基本原理是很简洁的,两个部分的公式就可以概括:
博文质量分
=累加优质博文特征分
x累乘低质博文特征因子
累加优质博文特征分
=权重1*优质博文特征1得分
+权重2*优质博文特征2得分
+…+权重N*优质博文特征N得分
累乘低质博文特征因子
=低质特征因子1
x低质特征因子2
x…x低质特征因子M
难的地方在于工程细节,包含:
这是一个良币驱逐劣币的过程:
很多人忙于制造各种低质量的数据,我们在重视内容数据的质量,内容数据质量的治理是一个长期的工作,这只是起了一个头。近期我们会在 CSDN指数 页面提供独立的质量分查询入口。
需求:我们希望将CSDN每天值得看的数据筛选出来,同时能和用户便利而直接的讨论、交流、打赏互动等,快速地迭代。
解决: 我们构建了极客日报社区 通过快速迭代实验了一系列的数据策略。
有一个需要和BI区分的是
在持续的快速迭代中,我们也从中提取了有效的算法和策略用在了其他地方。
一些实验性尝试则还需要进一步的迭代。
数据智能不单是算法,更是一个系统,一个带有反馈循环的自动化系统,从数据出发,需要的是一整套完整的反馈循环。
总的来说,基于极客社区,我们逐渐在理解一些重要的问题:
直面这些问题,不放过细节,寻找逻辑上的链条,如果我们在小数据上验证成功了,那么它又可伸缩性么?放大后的变化曲线是线性还是其他的呢?有时候,我们需要大量一手的“人工智能”,花苦功夫理解数据:NLP 实战(11): CSDN Daily,兼谈技术写作的问题。
我们悄悄做了一组机器人实验。本着朴素的思考,我们认为做通用的多轮回答机器人没戏。于是我们从最简单的意图识别开始,意图识别后,不是给用户推送广告,而是给引导用户真正获得学个知识或者问个问题。目前大概有10%左右的进入2轮对话。
基于学习用户画像,该项目还在持续迭代优化中。我们认为一个自然人用户,是不同场景的不同用户。例如针对学习场景来说,一个人是否是学习目标用户。在学习的场景中,每个人都在学习状态机的某一个状态,这个是动态变化的。如果我们建立起有效的学习状态机,根据情景的上下文就能动态的刻画学习者的状态。那么,我们就能有效的帮助用户获得真正需要的学习知识。
技术开发中的长尾问题是很多的,如何有效减少重复问题是我们的努力之一。采用基于语义匹配的模型,在问答里,当识别到用户提出的问题和以往的问题有高度相似性时,如果已解决的问题直接就解决了用户的提问,那么就减少了一次重复提问。目前能做到8%左右的采纳率。
有一类问题,它提出的问题事实上在博文里是有相关的博文能解决用户的问题的,或者某一些文档的参考资料能解决问题。我们构建高质量博文+知识图谱库,基于这些数据驱动来做1轮回答。目前还在迭代。
海量的长尾数据,用户只能通过搜索和碎片方式来学习。逐渐地有很多各种各样的课程,但是如果课程本身又很多,又会变成大海捞针,回归到通过搜索和碎片式的方式学习。构建开放的技能树,聚集确定性的知识,让同主题学习发生。其中技能树的构建也是一种先验知识的构建,我们陆续和开放社区一起在原来的基础上,持续构建了 网络技能树、CUDA技能树、云原生技能树、Vue技能树,即将到来的还有 面向对象入门技能树、游戏开发入门技能树、MySQL技能树…如果你有对某一个领域的系统的知识,有希望帮助到更多的开发者构建知识体系的热情,欢迎一起来技能森林参与构建:https://gitcode.net/csdn/skill_tree
而管道工具上,将多种异构的外部和内部数据源系统统一在数据层,提供一致的接口和服务。
我们对热榜和领域榜的实现进行了深入的分析和验证。将在极客社区里 CSDN每天值得看 实验获得的经验用在了热榜的改进上。
核心的改进是
我们解决了卫生问题后,往下走就可以逐渐构建创新的功能点,想象和创建让用户眼前一亮的数据智能。
数据要体现出智能,事实上是一个系统构建的工作。我们要理解数据、理解算法、理解自动化系统、理解产品和运营。最后你会发现它事实上还是要理解程序:什么是有效的正向反馈系统。在这里面,算法是精确定位的基础,数据体系是效解决长尾问题的根本,自动化系统是泵,终端和触达则是智能系统的硬件。不是为了堆砌名词,而是当我们说数据智能的时候,要想清楚智能在哪里。我们会持续在CSDN学习和全站数据上都做好每一个数据智能。
–end–
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。