赞
踩
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
贡献者:@Alexxinlu @行走的人偶 @幻灰龙 @softwareteacher
综合热榜使用上了质量分(100分制),参考 【博文质量分计算】
改进领域榜,增加榜单说明:
改进领域榜,调整规则
贡献者:@幻灰龙 @佳昊 @PeasantWorker @行走的人偶
综合热榜增加对用户投诉多的广告软文的识别和过滤。
新增根据原力值计算N条命,插入到top11-top100的规则,具体计算方式如下:
经过这两个调整,热榜博文的时间衰减粒度不再以小时迅速衰减。这里有一个和HackNews的不同需求是,博文上榜后需要在热榜上停留足够的时间,因此衰减不能过于剧烈。
衰减的问题解决后,下一步会再回归来改进上榜博文内容稀缺度问题。
前后对比,有效抑制了正文里提到的标题党和过于低质长博文的问题。
时间衰减因子(TTL) 归一化下,从1开始随着博文创建时间衰减,可以从 TTL 的曲线变化看到0-72个小时内因子的衰减,新公式需要跑下数据验证后再上线:
https://www.wolframalpha.com/input/?i=1.52%2F%28log%28x%2B4%29%29%5E1.3%2Cx%3E%3D0%2Cx%3C%3D12
新热榜每周NPS曲线,定期跟踪:
增加了最低阅读量过滤,阅读量太低的直接不参与计算,刚创建的文章应该在其他渠道有一些冷启动的过程。但是阅读量是一个容易被刷的数据,该数据并不参与后续计算。
CSDN 的榜单有很多个,包含这些:
其中热榜总是存在一些问题,典型的现象有:
我们再分析下这些问题反映的问题是什么:
综合来说,让高质量的博客获得更多相关的读者,提高生态质量,打击标题党, 平衡各种领域,适度考虑阅读量和热度。是热榜算法的改进目标。
设计热榜算法,考虑几个不同的维度。
首先,交互数据的平衡
其次,在数据的时间序列上,引入半衰期
第三,考虑内容的质量
第四,考虑内容的领域
参考 Hacker News (ycombinator.com) 的热度算法。
S
=
V
∗
(
P
−
1
)
0.8
(
T
2
)
G
S = V*\frac{(P-1){0.8}}{(T+2)G}
S=V∗(T+2)G(P−1)0.8
其中:
这个基本的公式,重要的地方在于考虑了时间衰减和领域权重,理解这个思想后,可以根据自己的数据做调整。
综合上述分析,引入的热榜算法的机制如下:
S
=
C
∗
V
∗
C
H
∗
P
(
T
2
)
1.1
=
热榜得分
S = C * V * CH*\frac{P}{(T+2)^{1.1}} = 热榜得分
S=C∗V∗CH∗(T+2)1.1P=热榜得分
C
=
w
1
∗
t
i
t
l
e
s
c
o
r
e
w
2
∗
c
o
n
t
e
n
t
s
c
o
r
e
w
1
w
2
=
内容得分
C = \frac{w1*titlescore + w2*contentscore}{w1+w2} = 内容得分
C=w1+w2w1∗titlescore+w2∗contentscore=内容得分
V
=
a
r
e
a
s
c
o
r
e
=
领域得分
V = areascore = 领域得分
V=areascore=领域得分
P
=
∑
i
=
1
n
w
i
∗
f
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Go语言开发知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
o
r
e
=
领域得分
V = areascore = 领域得分
V=areascore=领域得分
P
=
∑
i
=
1
n
w
i
∗
f
[外链图片转存中…(img-9oPGTW3v-1715636854272)]
[外链图片转存中…(img-8n3zFwHj-1715636854272)]
[外链图片转存中…(img-EjRnVi3N-1715636854272)]
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上Go语言开发知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、讲解视频,并且后续会持续更新
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。