当前位置:   article > 正文

Python 做个小爬虫对CSDN热榜变冷榜的指标数据进行分析_冷热点分析python

冷热点分析python

本周虽然有幸升到周榜冠军,可是怎么也开心不起来! 因为CSDN热榜变冷榜,彻底凉了。

不开心之余还是动手做了个小爬虫,分析一下各指标,数据确实有点不好看,称它为“冷榜”也不算过分:

开始爬取热榜,请稍候...
耗时:2.199401808s

【Top100指标统计】

浏览为0的:        3
评论为0的:       76
收藏为0的:       51
浏览评论0的:    3
三指标都0的:    2

浏览个位数的:    25
评论个位数的:    98
收藏个位数的:    86
无封面题图的:    74

浏览>=100的:    18
评论>=10的:      1
收藏>=10的:      13

【Top50指标统计】

浏览为0的:       0
评论为0的:       36
收藏为0的:       22
浏览评论0的:    0
三指标都0的:    0

浏览个位数的:    15
评论个位数的:    49
收藏个位数的:    39
无封面题图的:    38

浏览>=200的:    12
评论>=20的:      0
收藏>=20的:      8

开始爬取Top100网页,请稍候(大约1分钟)...
耗时:50.254692171s
下载失败数:0


【Top100博客等级分布】

等级 1: 11
等级 2: 12
等级 3: 22
等级 4: 20
等级 5: 21
等级 6: 3
等级 7: 7
等级 8: 3

【Top100作者码龄分布】

码龄 0: 15
码龄 1: 14
码龄 2: 23
码龄 3: 12
码龄 4: 13
码龄 5: 12
码龄 6: 4
码龄 7: 2
码龄10: 1
码龄12: 1
码龄13: 1
码龄-1: 1

【Top100作者周排名分布】

周榜前100名     : 5
第100~200名    : 2
第200~500名    : 8
第500~1千名    : 5
第1千~5千名    : 17
第5千~1万名    : 14
第1万~2万名    : 7
第2万~5万名    : 10
第5万~10万名  : 11
10万名之后      : 20

更多详情见桌面文件:
【CSDN排行榜Top100】2021-10-26.txt
==========================
报告日期:2021-10-26
报告时间:09:30
程序耗时:52.63s


啥也不说了,直接上代码:

  1. from requests import get
  2. from bs4 import BeautifulSoup as bs
  3. from win32com.shell import shell
  4. from datetime import datetime as dt
  5. from time import perf_counter
  6. from re import findall
  7. def lenB(str):
  8. t = 0
  9. for s in str:
  10. if '\u4e00' <= s <= '\u9fef': t += 1
  11. return t
  12. def reportTime():
  13. d = dt.today()
  14. return f'{d.year}-{d.month:02}-{d.day:02} {d.hour:02}:{d.minute:02}'
  15. def reportData(Index, num=0):
  16. count = [0,0,0,0,0,0]
  17. for i in Index:
  18. if i[0] <= num : count[0]+=1
  19. if i[1] <= num : count[1]+=1
  20. if i[2] <= num : count[2]+=1
  21. if sum(i[:2]) <= num : count[3]+=1
  22. if sum(i[:3]) <= num : count[4]+=1
  23. if i[-1]: count[-1]+=1
  24. return count
  25. def reportData2(Index):
  26. count = [0,0,0,0,0,0]
  27. out1,out2 = (200,20,20),(100,10,10)
  28. for i in Index:
  29. if i[0] >= out1[0] : count[0]+=1
  30. if i[0] >= out2[0] : count[1]+=1
  31. if i[1] >= out1[1] : count[2]+=1
  32. if i[1] >= out2[1] : count[3]+=1
  33. if i[2] >= out1[2] : count[4]+=1
  34. if i[2] >= out2[2] : count[5]+=1
  35. return count
  36. def reportString(count):
  37. outStr = f'浏览为0的:\t{count[0]}\n评论为0的:\t'
  38. outStr += f'{count[1]}\n收藏为0的:\t{count[2]}\n'
  39. outStr += f'浏览评论0的:\t{count[3]}\n'
  40. outStr += f'三指标都0的:\t{count[4]}\n'
  41. return outStr
  42. def reportString2(count):
  43. outStr = f'浏览个位数的:\t{count[0]}\n'
  44. outStr += f'评论个位数的:\t{count[1]}\n'
  45. outStr += f'收藏个位数的:\t{count[2]}\n'
  46. outStr += f'无封面题图的:\t{count[-1]}\n'
  47. return outStr
  48. def reportString3(count,idx=0):
  49. out1,out2 = (200,20,20),(100,10,10)
  50. if idx==0: out = out1
  51. else: idx=1; out = out2
  52. outStr = f'浏览>={out[0]}的:\t{count[idx]}\n'
  53. outStr += f'评论>={out[1]}的:\t{count[idx+2]}\n'
  54. outStr += f'收藏>={out[2]}的:\t{count[idx+4]}\n'
  55. return outStr
  56. def dictFromList(Values,num=5):
  57. tags,tagDict = [],dict()
  58. if num==5:
  59. for tag in Values:
  60. tags.extend(list(tag[num]))
  61. else:
  62. for tag in Values:
  63. tags.append(tag[num])
  64. Tags = list(set(tags))
  65. for t in Tags:
  66. tagDict[str(t)] = tags.count(t)
  67. return tagDict
  68. def matchRange(value):
  69. if 0<value<=100: res = 0
  70. elif 100<value<=200: res = 1
  71. elif 200<value<=500: res = 2
  72. elif 500<value<=1000: res = 3
  73. elif 1000<value<=5000: res = 4
  74. elif 5000<value<=10000: res = 5
  75. elif 10000<value<=20000: res = 6
  76. elif 20000<value<=50000: res = 7
  77. elif 50000<value<=100000: res = 8
  78. else: res = 9
  79. return res
  80. if __name__ == '__main__':
  81. desktop = shell.SHGetFolderPath(0, 25, None, 0)
  82. filename = r'\【CSDN排行榜Top100】'+reportTime()[:10]+'.txt'
  83. output = desktop + filename
  84. tofile = open(output,'w',encoding='utf-8')
  85. rank,ids,articles,index = [],[],[],[]
  86. print('\n开始爬取热榜,请稍候...')
  87. print('\n【CSDN 综合热榜】:\n', file=tofile)
  88. agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.'
  89. agent += '36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
  90. website = 'https://blog.csdn.net/phoenix/web/blog/'
  91. for i in range(4):
  92. url = website + f'hotRank?page={i}&pageSize=25'
  93. res = get(url,headers={'User-Agent':agent}).json()
  94. if res["code"] == 200:
  95. data = res["data"]
  96. rank += [r for r in data]
  97. print(f'耗时:{perf_counter()}s\n')
  98. rank = [[v for i,v in r.items()] for r in rank]
  99. for i,r in enumerate(rank):
  100. d,m = divmod(i,25)
  101. if m==0:
  102. count = 0
  103. print(f'【{d*25+1}{d*25+25}名】:\n', file=tofile)
  104. if r[5].lower():
  105. count += 1
  106. ids.append(r[5])
  107. articles.append(r[7])
  108. print(f'★№{i+1:02}{r[3]} (热度:{r[0]})\n○《{r[6]}》', file=tofile)
  109. print(f'◎ 浏览:{r[-5]} 评论:{r[-4]} 收藏:{r[-3]}', file=tofile)
  110. print(f'¤ {r[7]}\n', file=tofile)
  111. index.append((int(r[-3]),int(r[-5]),int(r[-4]),int(r[0]),r[-1]==[]))
  112. count1 = reportData(index)
  113. outStr1 = '【Top100指标统计】\n\n'
  114. outStr1 += reportString(count1)
  115. count1_2 = reportData(index,9)
  116. outStr1_2 = reportString2(count1_2)
  117. count1_3 = reportData2(index)
  118. outStr1_3 = reportString3(count1_3,1)
  119. print(outStr1, file=tofile)
  120. print(outStr1_2, file=tofile)
  121. print(outStr1_3, file=tofile)
  122. count2 = reportData(index[:50])
  123. outStr2 = '【Top50指标统计】\n\n'
  124. outStr2 += reportString(count2)
  125. count2_2 = reportData(index[:50],9)
  126. outStr2_2 = reportString2(count2_2)
  127. count2_3 = reportData2(index)
  128. outStr2_3 = reportString3(count1_3)
  129. print(outStr2, file=tofile)
  130. print(outStr2_2, file=tofile)
  131. print(outStr2_3, file=tofile)
  132. #标题关键字,可根据需要自行添加
  133. keywords = ('C++','C语言','Python','JAVA','Delphi','C#','mysql','HTML',
  134. 'Matlab','Unity','Spring','Nginx',
  135. 'Windows','Linux','Android','Ubuntu',
  136. '框架','算法','对象','函数','爬虫')
  137. kwIndex = []
  138. for _ in range(len(keywords)): kwIndex.append(0)
  139. for title in rank:
  140. for i,kw in enumerate(keywords):
  141. if kw.lower() in title[6].lower():
  142. kwIndex[i] += 1
  143. outStr3 = '\n【Top100标题常见关键字统计】\n\n'
  144. for i,kw in enumerate(kwIndex):
  145. if i==1: kwi,kws = kw + kwIndex[0],'C/C++'
  146. else: kwi,kws = kw,keywords[i].title()
  147. if i>=1 and kwi>0:
  148. outStr3 += f'{kws:<{10-lenB(kws)}}: {kwi}\n'
  149. '''
  150. #字典形式可以排序
  151. kwDict = dict()
  152. for i,kw in enumerate(keywords): kwDict[kw] = kwIndex[i]
  153. for item in sorted(kwDict.items(),key=lambda k:k[1],reverse=True):
  154. if not item[1]: print();break
  155. print(f'{item[0]:<{10-lenB(item[0])}}: {item[1]}')
  156. '''
  157. print(outStr1 + '\n' + outStr1_2 + '\n' + outStr1_3)
  158. print(outStr2 + '\n' + outStr2_2 + '\n' + outStr2_3)
  159. #爬取Top100资料
  160. Values = []
  161. print('开始爬取Top100网页,请稍候(大约1分钟)...')
  162. timer = perf_counter()
  163. for idx,url in enumerate(articles):
  164. res = get(url,headers={'User-Agent':agent})
  165. res.encoding='uft-8'
  166. soup = bs(res.text,'html.parser')
  167. value = []
  168. for i in range(3,8):
  169. if i!=4: value.append(rank[idx][i])
  170. try: #码龄
  171. ctxt = 'personal-home-page personal-home-years'
  172. html = soup.find('span',class_=ctxt)
  173. value.append(int(findall(r'\d+',html.text)[0]))
  174. except: value.append(-1)
  175. try: #标签
  176. ctxt = 'tags-box artic-tag-box'
  177. html = soup.find('div',class_=ctxt)
  178. html = html.find_all('a')
  179. value.append(set([i.text.strip().lower().title() for i in html]))
  180. except: value.append(set())
  181. html = soup.find_all('dl')
  182. for dl in range(1,len(html)):
  183. try: dlval = html[dl]['title']
  184. except: break
  185. if '级' in dlval: dlval = dlval[:dlval.find('级')]
  186. if '暂无排名' in dlval: dlval = -1
  187. value.append(int(dlval))
  188. if len(value)==16: value.append(False)
  189. else: value.append(True)
  190. Values.append(value)
  191. print(f'耗时:{perf_counter()-timer}s')
  192. datafile = desktop + r'\【CSDN排行榜Top100】data'+reportTime()[:10]+'.txt'
  193. #收集到的数据全部写入文件*data*.txt
  194. failVals = 0
  195. with open(datafile,'w',encoding='utf-8') as f:
  196. f.write(f'#报告日期:{reportTime()}\n')
  197. for val in Values:
  198. if val[-1]:
  199. failVals += 1
  200. continue
  201. f.writelines('|'.join([str(i) for i in val]))
  202. f.write('\n')
  203. Values = [val for val in Values if not val[-1]]
  204. print(f'下载失败数:{failVals}\n')
  205. '''value列表各元素的索引值分别代表:
  206. 0~ 5:昵称 用户名 标题 链接 码龄 文章标签
  207. 6~10:原创 周排名 总排名 访问 等级
  208. 11~15:积分 粉丝 获赞 评论 收藏
  209. 16: 失败标记=False'''
  210. #输出内容
  211. tagsRank,tagDict = [],dictFromList(Values)
  212. for item in sorted(tagDict.items(),key=lambda t:t[1],reverse=True):
  213. tagsRank.append(f'{item[0]:<{22-lenB(item[0])}}: {item[1]}')
  214. if len(tagsRank)>=100: break
  215. outStr4 = lambda x:f'\n【Top100文章标签排名(Top{x})】\n'
  216. outStr5 = '\n【Top100博客等级分布】\n\n'
  217. valDict = dictFromList(Values,10)
  218. for key,value in valDict.items():
  219. outStr5 += f'等级{key:>2}: {value}\n'
  220. print(outStr5, file=tofile)
  221. outStr6 = '\n【Top100作者码龄分布】\n\n'
  222. valDict = dictFromList(Values,4)
  223. for key,value in valDict.items():
  224. outStr6 += f'码龄{key:>2}: {value}\n'
  225. print(outStr6, file=tofile)
  226. outStr7 = '\n【Top100作者周排名分布】\n\n'
  227. valDict = dictFromList(Values,7)
  228. weekRank = [0 for _ in range(10)]
  229. for key,value in valDict.items():
  230. weekRank[matchRange(int(key))] += 1
  231. textRank = ('周榜前100名','第100~200名','第200~500名','第500~1千名','第1千~5千名',
  232. '第5千~1万名','第1万~2万名','第2万~5万名','第5万~10万名','10万名之后')
  233. for i,txt in enumerate(textRank):
  234. outStr7 += f'{txt:<{14-lenB(txt)}}: {weekRank[i]}\n'
  235. print(outStr7, file=tofile)
  236. #更多指标可用以分析或者画折线图柱形图等等,指标索引见上面的注释
  237. print(outStr5 + outStr6 + outStr7)
  238. print(f'更多详情见桌面文件:\n{filename[1:]}')
  239. endStr = '='*26
  240. endStr += f'\n报告日期:{reportTime()[:10]}'
  241. endStr += f'\n报告时间:{reportTime()[11:]}'
  242. endStr += f'\n程序耗时:{round(perf_counter(),2)}s\n'
  243. print(outStr3, file=tofile)
  244. print(outStr4(100), file=tofile)
  245. for t in tagsRank: print(t, file=tofile)
  246. print(endStr, file=tofile)
  247. tofile.close()
  248. print(endStr)
  249. ''' 运行环境: Windows7 + Python3.8.8 '''
  250. ''' Written by Hann, 2021.10.25 '''

代码比较乱,这就是业余风格⊙﹏⊙‖∣ 程序一共抓取了16种信息,可以根据需要,增加对其他各种数据时行分析。比如,还能用matplotlib来把数据画成图表:

例一:Top100的热度衰减表

  1. import matplotlib.pyplot as plt
  2. plt.figure().canvas.set_window_title('CSDN Top100 热度衰减示意图')
  3. plt.title('Top100 Attenuation Diagram')
  4. hots = [h[3] for h in index]
  5. x = [i+1 for i in range(len(hots))]
  6. plt.plot(x, hots)
  7. plt.show()

 例二:Top100 博客等级分布图

 

  1. import matplotlib.pyplot as plt
  2. plt.figure().canvas.set_window_title('CSDN Top100 博客等级分布示意图')
  3. Level = [i[10] for i in Values]
  4. x = [i+1 for i in range(len(Level))]
  5. plt.scatter(x, Level,marker='o')
  6. plt.show()

 注: 以上两代码中的 index 和 Values 两个列表是原爬虫程序中的全局变量,为省事我直接用了。同样的还有一个变量tagDict可以直接拿来用的:

tagDict
             
{'红书《题目与解读》': 1, '# Java Web': 1, '负载均衡': 1, 'String': 1, 'Html': 1, '编程入门': 1, 'Python爬虫': 1, '原力计划': 5, 'React.Js': 1, '模板': 1, 'Flutter': 1, 'Python Qt': 1, 'Leetcode题解集锦': 1, '搜索引擎': 1, '基础知识': 1, '后端': 8, 'Flutter骚操作': 1, 'Spring Boot': 2, 'Elasticsearch': 3, '架构': 1, 'Database': 3, 'Nginx': 3, '1024程序员节': 23, 'Waf攻防': 1, '计算机网络': 1, '程序员生存技能': 1, '二叉树': 1, '泛型类': 1, '日期工具类': 1, '拍卖': 1, 'Web前端': 1, 'Date': 1, '排序算法': 2, 'Javascript': 9, '源码分析': 1, '数据分析': 1, '大数据': 3, 'Linux': 6, '数据库': 5, 'Pycharm': 1, 'Vue.Js': 5, '操作系统': 2, '单片机': 1, '生活感悟': 1, 'Java成神之路之设计模式': 1, 'Create-Vue': 1, '蓝桥杯': 1, '贪心': 1, '【详细注释】数据结构与算法': 1, '项目': 1, 'Matlab': 1, 'Jdbc': 1, '微信小程序': 1, '# 中间件': 1, 'Bash': 1, 'Leetcode': 3, '同步': 1, '数据库应用': 1, '栈': 1, 'Language': 1, '开发语言': 10, 'Jwt': 1, 'Css': 3, 'Mysql': 1, '操作系统篇': 1, 'Vj': 1, 'Sqlite': 1, 'Java基础': 1, 'Spring': 4, '计算机网络养成': 1, '机器人': 1, 'Centos': 1, '机器视觉': 1, 'Kube-Controller-Manager': 1, '网络编程专题': 1, '从零开始Python+微信小程序开发': 1, 'C语言': 4, 'Spring Security': 1, '泛型': 1, '面试': 1, 'Elastic': 1, '读论文': 1, '数据处理': 1, '服务器': 3, '重学Java高并发': 1, '云原生': 1, 'Java': 25, '线性回归': 1, '基数排序': 1, '网络': 2, 'Rabbitmq': 1, 'Js': 1, '上位机': 1, 'Java基础概要': 1, 'React系列': 1, 'Qt': 1, '分类': 1, '网络协议': 1, '多线程': 1, '数据库开发': 1, 'Vue': 4, 'Jvm': 1, '常用算法考题': 1, '跨域': 1, 'Visio': 1, 'Es6': 2, '源码': 1, 'Synchronized': 1, '算法之力扣系列': 1, '老王和他的It界朋友们': 1, 'C++语言': 1, '进程管理': 1, '层序遍历': 1, 'Wireshark': 1, '知识点': 1, '经验分享': 1, 'Javascript百炼成仙(试读)': 1, 'Hibernate': 1, '运维': 2, '数据结构与算法': 1, '双指针': 1, '教程': 1, 'Python': 8, '# Python科学计算基础': 1, '编译原理': 1, 'Big Data': 2, '数据结构': 2, '程序人生': 1, 'Linux相关命令': 1, '单调栈': 1, '图像处理': 2, 'Oauth2': 1, 'Qclipboard': 1, 'Jupyter': 1, 'Lintcode算法': 1, 'Opengauss经验总结': 1, 'C++': 5, 'Springboot': 2, '算法设计': 1, 'Redis': 2, '刷题笔记': 1, '杂文': 1, 'Ecmascript': 2, 'Linux学习': 1, '剪贴数据类': 1, '基于Matlab与Fpga的数字图像处理': 1, '前端': 9, 'Opencv': 2, 'Android项目记录': 1, '人工智能学习之路': 1, '算法': 8, '分布式事务': 1, 'Epoll': 1, '复习': 1, 'Http': 1, 'C语言笔记': 1, 'Anaconda': 1, '计算机视觉': 1, '其他': 1, 'Npm': 1, 'Sso': 1, 'Gui设计': 1, 'Array': 1, '笔记': 3, '安装': 1, 'Kubernetes': 1, 'Sqlserver': 1, '泛型方法': 1, '# Spring': 1, '分布式': 1, 'Ros机械臂': 1, 'Docker': 1, '链表': 1, 'Css3': 2, 'Android': 1, '微服务': 1, 'Python计算机视觉': 1, '分布式&Amp;高并发': 1, '排序': 1}

这个变量可以用模块wordcloud (中文分词需要jieba模块配合)加工一下,生成Top100热榜文章的标签词云图。(有待下一篇再做,本篇完)
 

学习交流 Python 的群和公众号:

欢迎关注公众号

 http://qr01.cn/FHYKEa

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/羊村懒王/article/detail/210847
推荐阅读
相关标签
  

闽ICP备14008679号